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数据 科学 家 、 数 学 家 、 约 翰 ' 霍 普 金 斯 大 学 讲 
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实现 并 应 用 过 相应 的 策略 。Kylie.ai 公 司 产品 
经 理 ， 目 前 专注 于 自然 语言 处 理 和 生成 技术 。 
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机 器 学 习 模 型 的 成 功 正 是 取决 于 如 何 利用 不 同类 型 的 特征 ， 例 如 连续 特征 、 分 类 特征 等 。 本 书 将 带 
你 了 解 特征 工程 的 完整 过 程 ， 使 机 器 学 习 更 加 系统 、 高 效 。 你 会 从 理解 数据 开始 学 习 ， 了 解 何 时 纳入 一 项 





特征 、 何 时 忽略 一 项 特征 ， 


内 容 提 要 





























以 及 其 中 的 原因 。 你 还 会 学 习 如 何 将 问题 陈述 转换 为 有 用 的 新 特征 ， 如 何 提 




















供 由 商业 需求 和 数学 见解 驱动 的 特征 ， 以 及 如 何在 自己 的 机 器 上 进行 机 器 学 习 ， 从 而 自动 学 习 数据 中 的 





特征 。 








本 书面 向 所 有 希望 全 面 了 解 特征 工程 的 读者 ， 特 别 适合 具有 机 器 学 习 应 用 知识 并 希望 改进 机 器 学 习 模 





型 结果 的 数据 科学 家 阅读 。 
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本 书 的 主题 是 特征 工程 。 特 征 工程 是 数据 科学 和 机 融 学 习 流 水 线 上 的 重要 一 环 ， 包 括 识别 、 
清洗 、 构 建 和 发 掘 数据 的 新 特征 ， 为 进一步 解释 数据 并 进行 预测 性 分 析 做 准备 。 

本 书 壳 括 了 特征 工程 的 全 流程 ， 从 数据 检查 到 可 视 化 ,再 到 转换 和 进一步 处 理 ， 等 等 。 书 中 
还 会 涉及 各 种 或 简单 或 复杂 的 数学 工具 ,数据 要 经 过 这 些 工具 处 理 、 转 换 成 适当 的 形式 , 才能 进 
入 计算 机 和 机 器 学 习 流 水 线 中 进行 处 理 。 

作为 数据 科学 家 , 我 们 将 通过 观察 和 变换 来 获取 对 数据 的 全 新 理解 ,这 不 仅 会 增强 机 噩 学 习 
算法 的 效果 ， 而 且 会 增强 我 们 对 数据 的 洞悉 力 。 


















































目标 读者 
本 书面 向 希望 理解 并 使 用 特征 工程 进行 机 器 学 习 和 数据 挖掘 的 读者 。 
读者 应 能 熟练 使 用 Python 进行 机 器 学 习 和 编程 ， 才 能 顺 着 音节 的 展开 循序 渐进 地 了 解 新 知 




















识 点 。 
本 书 内 容 


第 1 章 ， 特 征 工程 简介 ”这 一 章 介绍 特征 工程 的 基本 术语 ， 简 要 阐释 本 书 涉及 的 各 类 问题 。 


第 2 章 ， 特 征 理解 : 我 的 数据 集 里 有 什么 “这 一 章 介 绍 我 们 在 实际 中 会 遇见 的 各 类 数据 ， 并 
说 明 如 何 处 理 这 些 数 据 。 


第 3 章 ， 特 征 增强 : 清洗 数据 这 一 章 介绍 填充 缺失 值 的 各 种 方法 ， 以 及 为 何某 些 处 理 方法 
会 使 机 器 学 习性 能 变 差 。 


第 4 章 ， 特 征 构建 : 我 能 生成 新 特征 吗 这 一 章 介绍 如 何 使 用 己 有 的 特征 构建 新 特征 ， 以 扩 
大 数据 集 。 


第 5 章 ， 特 征 选择 : 对 坏 属 性 说 不 ”这 一 章 介绍 定量 的 选择 方法 ， 用 于 判断 哪些 特征 值得 在 


























数据 流水 线 中 保留 。 
第 6 章 ， 特 征 转换 : 数学 显 神通 这 一 章 介绍 如 何 使 用 线性 代数 和 高 等 数学 方法 增强 数据 的 
刚性 结构 ， 从 而 提升 流水 线 的 性 能 。 


第 7 章 ， 特 征 学 习 : 以 Al 促 Al 这 一 章 介绍 如 何 利用 最 先进 的 机 需 学 习 和 人 工 智能 算法 ， 
发 现 人 类 难以 理解 的 特征 。 


第 8 章 ， 案 例 分 析 这 一 章 介绍 了 一 系列 巩固 特征 工程 思想 的 案例 。 











阅读 须知 
阅读 本 书 有 以 下 两 点 要 求 。 


(1) 本 书 的 所 有 编程 示例 均 使 用 Python。 你 需要 有 一 台 可 以 访问 Unix 式 终端 的 计算 机 ( Linux、 
Mac 或 Windows 均 可 )， 并 安装 Python 3。 
(2) 建议 安装 Anaconda， 因 为 这 个 环境 几乎 包含 了 示例 中 要 用 到 的 所 有 包 。 


























下 载 示例 代码 
你 可 以 从 “图 灵 社 区 ”本 书页 面 (http://www.ituring.com.cn/book/2606 ) 下 载 书 中 的 示例 代码 。 
文件 下 载 结束 之 后 ， 请 确定 使 用 以 下 软件 的 最 新 版 本 解压 或 提取 文件 : 


口 WinRAR/7-Zip ( Windows ) 
口 Zipeg/iZip/UnRarX ( Mac ) 
口 7-Zip/PeaZip (Linux ) 


https:/github.com/PacktPublishing/ 提 供 了 种 类 丰富 的 图 书 和 视频 资料 相关 代码 包 ， 好 好 看 一 
下 吧 ! 














下 载 本 书 彩色 图 片 


我 们 也 提供 含有 彩色 截图 /图 表 的 PDF 文件 。 彩 色 图 片 能 帮助 你 更 深入 地 理解 输出 的 变化 。 
下 载 地 址 : https:/www.packtpub.com/sites/default/files/downloads/FeatureEngineeringMadeEasy_ 
ColorImages.pdf。 








排版 约定 
本 书 采 用 不 同 的 文本 样式 来 区 分 不 同类 别 的 信息 。 





























正文 中 的 代码 按 以 下 样式 显示 :“ 假 设 要 进一步 处 理 数据 ， 我 们 的 任务 就 是 通过 3 个 输入 特 
征 (datetime、protocol 和 urgent ) 准确 地 预测 malicious。 简单 地 说 ， 我 们 想 要 的 系统 
可 以 把 aatetime、protocol 和 urgent 的 值 映 射 到 malicious 的 值 。” 


代码 块 的 样式 如 下 所 示 : 




















Network_features = pd.DataFrame({'datetime': ['6/2/2018', '6/2/2018', 
piedlet yy Hd/3720L8.] 3 "nerotocolte teorn,. "lttply "httn,. httpr],y 
'urgent': [False, True, True, False]}) 


Network_response = pd.Series([True, True, False, Truel]) 
Network_features 
> 


datetime protocol urgent 


0 6/2/2018 tcp False 
1 6/2/2018 http True 
2 6/2/2018 http True 
3 6/3/2018 http False 
Network_response 

2 

0 True 

1 True 

2 False 

3 True 


dtype: bool 


如 果 我 们 需要 你 重点 关注 某 处 ， 会 加 粗 显示 : 


times_pregnant 0.221898 
plasma_glucose concentration 0.466581 
diastolic_ blood pressure 0.065068 
triceps_thickness O074752 
serum_ insulin 0.130548 
bmi 0U.292695 
pedigree_function 0.173844 
age QQ.230356 
onset_diabetes 1.000000 
ame: onset_diabetes, dtype: float64 





新 术语 、 重 点 词 和 屏幕 上 的 文字 将 以 黑体 形式 显示 。 


2 这 个 图 标 表 示 提 示 或 技巧 。 





联系 我 们 

一 般 反 馈 : 发 送 邮 件 至 feedback@packtpub.com 并 在 主题 处 提 及 书 名 。 如 果 对 于 本 书 任何 方 
面 有 疑问 ， 请 发 送 邮件 至 questions@packtpub.com。 

勘误 : 尽管 我 们 做 了 各 种 努力 来 保证 内 容 的 准确 性 ,依然 无 法 避免 出 现 错误 。 如 果 你 在 书 中 
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errata 提交 勘误 。 "通过 点 击 Errata Submission Form 链接 选择 图 书 ， 然 后 输入 勘误 详情 。 
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成 为 作者 : 如 果 你 在 某 个 领域 有 专业 知识 , 并 且 有 兴趣 进行 图 书写 作 , 请 访问 authors.packtpub. 
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评论 

请 留 下 你 的 评论 。 阅读 并 使 用 本 书 之 后 , 为 什么 不 在 购买 网 站 上 留 下 评论 呢 ? 其 他 读者 可 以 
根据 你 的 客观 意见 来 做 出 购买 决定 ，Packt 可 以 了 解 你 对 产品 有 何 看 法 ， 作 者 也 能 看 到 你 对 本 书 
的 反馈 。 谢 谢 ! 


想 了 解 关 于 Packt 的 更 多 信息 ， 请 访问 packtpub.com。 
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GD 针对 本 书 中 文 版 的 勘误 ， 请 到 http://www.ituring.com.cn/book/2606 查看 和 提交 。 一 一 编者 注 
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特征 工程 简介 








近年 来 ， 工 程 师 和 管理 层 都 在 党 试用 机 器 学 习 ( ML，machine learning ) 和 人 工 智 能 ( AL， 
artificial intelligence ) 来 解决 以 往 需要 手动 操作 才能 处 理 的 问题 。 自 然 语 言 处 理 (NLP ，natural 
languageprocessing ) 的 发 展 就 是 个 很 好 的 例子 , 特别 是 在 自然 语言 生成 和 理解 方面 。 更 精确 地 说 ， 
我 们 希望 构建 一 个 AI 系统 ， 从 用 户 ( 例如 对 最 新 款 智能 手机 不 满 的 用 户 ) 那里 直接 读 取 原始 文 
本 ， 以 机 器 的 速度 和 人 类 的 措辞 来 流畅 、 准 确 地 回复 。 本 章 会 介绍 以 下 有 关 特 征 工程 的 主题 : 
口 几 个 激动 人 心 的 例子 ,解释 为 什么 特征 工程 至 关 重 要 ; 
口 对 机 器 学 习 的 基本 理解 ， 包 括 性 能 和 评估 方法 ; 
口 本 书 各 章 的 详细 信息 。 























1.1 激动 人 心 的 例子 : Al 驱动 的 聊天 


我 们 的 AI 聊天 系统 Arty 可 以 像 人 类 员工 一 样 回复 客户 支持 请 求 。Arty 了 解 我 们 公司 产品 ， 
可 以 随时 提供 服务 。 


下 面 是 人 与 AI 客服 系统 的 一 段 对 话 。 


















































人 类 Al 
你 好 ， 我 的 手机 坏 了 。 抱歉 给 您 带 来 了 不 便 ， 请 问 您 的 手机 是 怎么 坏 的 ? 
手机 死机 了 ， 我 没 法 重启 。 您 的 手机 是 什么 型 号 的 ? 
新 款 iDroid 28 啊 ， 知 道 了 。 按 住 电源 键 和 音量 减 键 20 秒 ， 手 机 就 重启 了 
可 以 了 ， 谢 谢 ! 不 客气 ， 祝 您 生活 愉快 。 





这 种 系统 令 人 兴奋 ,足以 撼动 市 场 ， 因为 如 此 复杂 的 系统 竞 然 可 以 十 分 简洁 。 让 我 们 仔细 分 
析 一 下 。 从 表面 上 看 ， 你 有 可 能 觉得 ， 这 问题 很 简单 啊 ! 提问 很 简单 ， 回 答 也 很 简单 ， 只 是 接收 
一 个 请 求 ， 给 出 一 个 回复 。“ 您 好 ， 我 的 手机 死机 了 ， 应 该 怎么 办 ? ”很 简单 ， 重 启 就 好 了 。 当 
然 ， 表 面 上 看 起 来 一 定 是 这 样 的 。 
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from Arty import AI 
AI.respond to("my phone froze, what should I do?") 
>> "reset it." 








利 亚 特 》 也 没 看 过 儿童 故事 书 《 大 红 狗 克 里 弗 》 没 办 法 消化 信息 。 核 心 问题 就 是 ，AI 没有 什么 
阅读 的 经 验 。 人 们 给 这 个 AI 几 十 万 份 (乃至 几 百 万 份 ) 之 前 的 人 类 聊天 日 志 , 让 其 从 中 发 现 规律 。 





上 文中 AI 系统 的 训练 数据 节选 如 下 。 

















请 求 回 复 
你 哈 哦 您 好 ， 请 问 您 需要 什么 帮助 ? 
手机 坏 了 ! 1 1 1 11 天 啊 ! ! ! ! 怎么 了 ? 
> 等 一 下 ， 我 去 遇 狗 。 马 上 回来 。 好 。 我 等 你 。 
嗨 您 好 ， 我 是 Mark， 请 问 您 需要 什么 帮助 ? 


数据 分 为 两 列 , 请 求 表示 最 终 用 户 输入 客服 聊天 框 的 内 容 , 回复 则 表示 客服 对 所 收 到 消息 的 


回复 。 


在 读 过 数 千 条 包含 错别字 、 脏 话 和 中 途 掉 线 的 聊天 记录 后 ，AI 开始 认为 自己 可 以 胜任 客服 
工作 了 。 于 是 ， 人 类 开始 让 AI 处 理 新 收 到 的 消息 。 昌 然 人 类 没有 意识 到 自己 的 错误 ， 但 是 开始 



































注意 到 AI 还 没有 完全 掌握 这 项 本 领 。AI 连 最 简单 的 消息 都 识别 不 了 ， 返 回 的 消息 也 没有 意义 。 
人 类 很 容易 觉得 AI 只 是 需要 更 多 的 时 间 和 更 多 的 数据 ， 但 是 这 些 解决 方案 只 是 更 大 问题 的 小 修 








小 补 ， 而 且 很 多 时 候 根 本 不 管用 。 














这 个 例子 中 的 潜在 问题 很 有 可 能 是 AI 的 原始 输入 数据 太 差 , 导致 AI 认识 不 到 语言 中 的 细微 


差别 。 例 如 ， 问 题 可 能 出 在 这 些 地 方 。 








加 了 问题 的 难度 。 
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口 错别字 会 无 故 扩大 AI 的 单词 量 。 “你 哈 哦 ”和 “你 好 ”是 两 个 无 关 的 词 。 
D AI 不 能 理解 同义词 。 用 来 打招呼 的 “你 好 ”和 “ 嗨 ”字面 上 看 起 来 台 不 相似 ， 人 为 地 增 


为 了 解决 实际 问题 , 数据 科学 家 和 机 带 学 习 工 程 师 要 收集 大 量 数据 。 因 为 他 们 想 要 解决 的 问 
题 经 常 具有 很 高 的 相关 性 ,而 且 是 在 混乱 的 世界 中 自然 形成 的 , 所 以 代表 这 些 问题 的 原始 数据 有 














可 能 未 经 过 滤 ， 非 常 杂 乱 ， 甚 至 不 完整 。 











因此 ,过 去 几 年 来 , 类 似 数 据 工 程 师 的 职位 应 运 而 生 。 这 些 工 程 师 的 唯 



































职责 就 是 设计 数据 


流水 线 和 架构 , 用 于 处 理 原 始 数据 , 并 将 数据 转换 为 公司 其 他 部 门 一 一 特别 是 数据 科学 家 和 机 天 


学 习 工 程 师 
但 是 经 常 被 忽视 和 低估 。 











可 以 使 用 的 形式 。 尽 管 这 项 工作 和 机 咒 学 习 专 家 构建 机 器 学 习 流 水 线 一 样 重 要 ， 


1.2 ”特征 工程 的 重要 性 3 





在 数据 科学 家 中 进行 的 一 项 调查 显示 , 他 们 工作 中 超过 80% 的 时 间 都 用 在 捕获 、 清 洗 和 组 织 | 
数据 上 。 构造 机 器 学 习 流 水 线 所 花费 的 时 间 不 到 20%， 却 占据 着 主导 地 位 。 此 外 ,数据 科学 家 的 
大 部 分 时 间 都 在 准备 数据 。 超 过 75% 的 人 表示 ， 准 备 数据 是 流程 中 最 不 愉快 的 部 分 。 


上 文 提 到 的 调查 结果 如 下 。 
下 图 展示 了 数据 科学 家 进行 不 同 工 作 的 时 间 比 例 。 




















从 上 图 可 见 ， 数 据 科学 家 的 工作 占 比 如 下 。 


口 设置 训练 集 : 3% 

口 清洗 和 组 织 数据 : 60% 
口 收集 数据 集 : 19% 

口 挖掘 数据 模式 : 9% 

口 调整 算法 : 5% 

口 其 他 : 4% 


下 图 展示 了 数据 科学 家 最 不 喜欢 的 流程 。 




















在 一 项 类 似 的 调查 中 ， 数 据 科 学 家 认为 他 们 最 不 喜欢 的 流程 如 下 。 
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口 设置 训练 集 : 10% 

口 清洗 和 组 织 数据 : 57% 

口 收集 数据 集 : 21% 

口 挖掘 数据 模式 : 3% 

口 调整 算法 : 4% 

口 其 他 : 5% 

上 面 第 一 幅 图 表示 了 数据 科学 家 在 流程 中 的 不 同 部 分 所 花费 的 时 间 比 例 。 数据 科学 家 有 超过 
80% 的 时 间 花 在 了 准备 数据 上 ， 以 便 进一步 利用 数据 。 第 二 幅 图 则 表示 了 数据 科学 家 最 不 喜欢 的 
步 又。 超过 75% 的 人 表示 ， 他 们 最 不 喜欢 准备 数据 。 



































人 数据 源 : https://whatsthebigdata.com/2016/05/01/data-scientists-spend-most-of-their- 


time-cleaning-data/。 


好 的 数据 科学 家 不 仅 知道 准备 数据 很 重要 , 会 占用 大 部 分 工作 时 间 , 而 且 知 道 这 个 步 又 很 艰 
难 , 没 人 喜欢 。 很 多 时 候 我 们 会 觉得 , 像 机 融 学 习 况 赛 和 学 术 文献 中 那样 干净 的 数据 是 理所当然 
的 。 然 而 实际 上 ， 超 过 90% 的 数据 ( 最 有 趣 、 最 有 用 的 数据 ) 都 以 原始 形式 存在 ， 就 像 在 之 前 
AI 聊天 系统 的 例子 中 一 样 。 

准备 数据 的 概念 很 模糊 ， 包 括 捕获 数据 、 存 储 数据 、 清 洗 数据 ， 等 等 。 之 前 的 图 中 显示 ， 清 
洗 和 组 织 数据 占用 的 工作 时 间 十 分 可 观 。 数 据 工 程 师 在 这 个 步骤 中 能 发 挥 最 大 作用 。 清洗 数据 的 
意思 是 将 数据 转换 为 云 系统 和 数据 库 可 以 轻松 识别 的 形式 。 组 织 数据 一 般 更 为 彻底 , 经 常 包括 将 
数据 集 的 格式 整体 转换 为 更 干净 的 格式 ,例如 将 原始 聊天 数据 转换 为 有 行列 结构 的 表格 。 


清洗 数据 和 组 织 数据 的 区 别 如 下 图 所 示 。 





























12 月 16 日 上 午 9 点 








12 月 16 日 上 午 10 点 : 
服务 器 恢复 正常 
运行 





12 月 16 日 上 午 9 点 : 
服务 器 关机 & 重 启 








日 期 文本 
12 月 16 日 ”服务 器 关机 & 
12 月 16 日 上 午 10 点 : EF9 吉 至 局 
服务 器 恢复 正常 
运行 





12 月 16 日 ”服务 器 恢复 
上 午 10 点 ”正常 运行 
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图 片上 半 部 分 的 转换 代表 清洗 服务 器 日 志 , 包含 数据 和 服务 器 状态 的 描述 文本 。 注意 在 清洗 we 
时 ，Unicode 字符 &amp; 被 转换 为 了 更 可 读 的 &。 清 洗 前 后 ， 文 档 的 格式 基本 保持 不 变 。 下 半 部 

















分 的 组 织 转换 则 彻底 得 多 ,把 原始 数据 转换 为 了 行列 结构 ， 其 中 每 行 代表 服务 器 的 一 次 操作 ， 


列 代表 服务 器 操作 的 属 ' 





清洗 和 组 织 数 据 都 

















性 (attribute )。 在 这 个 例子 中 ， 两 个 属性 是 日 期 和 文本 。 
属于 更 大 的 数据 科学 范畴 ， 也 是 本 书 要 讨论 的 主题 一 一 特征 工程 。 
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终于 说 到 本 书 的 主 


题 了 。 


是 的 , 本 书 的 主题 是 特征 工程 。 我 们 将 着 眼 于 清洗 和 组 织 数据 的 过 程 ， 为 机 噩 学 习 流水 线 服 
务 。 除 了 这 些 概念 ,我 们 还 会 介绍 如 何 用 数学 公式 和 神经 理解 的 方式 看 竺 数据 转换 , 但 是 现在 暂 
时 不 涉及 。 让 我 们 从 概念 开始 入手 吧 。 




















特征 工程 (feature engineering ) 是 这 样 一 个 过 程 : 将 数据 转换 为 能 更 好 地 表示 潜 
在 问题 的 特征 ， 从 而 提高 机 器 学 习性 能 。 


为 了 进一步 理解 这 个 定义 ， 我 们 看 看 特征 工程 具体 包含 什么 。 

口 转换 数据 的 过 程 : 注意 这 里 并 不 特 指 原始 数据 或 未 过 滤 的 数据 ， 等 等 。 特 征 工程 适用 于 
任何 阶段 的 数据 。 通 常 ， 我 们 要 将 特征 工程 技术 应 用 于 在 数据 分 发 者 眼中 已 经 处 理 过 的 
数据 。 还 有 很 重要 的 一 点 是 ,我们 要 处理 的 数据 经 常 是 表格 形式 的 。 数 据 会 被 组 织 成 行 


( 观察 值 ) 和 列 















































(属性 ) 有 时 我 们 从 最 原始 的 数据 形式 开始 入 手 ， 例 如 之 前 服务 吉日 志 


的 例子 ， 但 是 大 部 分 时 间 ， 要 处 理 的 数据 都 已 经 在 一 定 程 度 上 被 清洗 和 组 织 过 了 。 
口 特征 : 显而易见 ， 这 个 词 在 本 书 中 会 很 常用 。 从 最 基本 的 层面 来 说 ， 特 征 是 对 机 器 学 习 
过 程 有 意义 的 数据 属性 。 我 们 经 常 需要 查看 表格 ， 确 定 哪些 列 是 特征 ， 哪 些 只 是 普通 的 











属性 。 


在 处 理 数据 时 ， 









































口 更 好 地 表示 潜在 问题 : 我 们 要 使 用 的 数据 一 定 代表 了 某 个 领域 的 某 个 问题 。 我 们 要 保证 ， 


不 能 一 叶 障 目 不 见 泰山 。 转 换 数据 的 目的 是 要 更 好 地 表达 更 大 的 问题 。 


口 提高 机 器 学 习性 能 : 特征 工程 是 数据 科学 流程 的 一 部 分 。 如 我 们 所 见 ， 这 个 步骤 很 重要 ， 




















而 且 经 常 被 低 佑 。 特 征 工程 的 最 终 目的 是 让 我 们 获取 更 好 的 数据 ， 以 便 学 习 算 法 从 中 挖 
掘 模式 ， 取 得 更 好 的 效果 。 本 书 稍 后 将 详细 讨论 机 器 学 习 的 指标 和 效果 ， 但 是 现在 我 们 
要 知道 的 是 ， 执 行 特征 工程 不 仅 是 要 获得 更 干净 的 数据 ， 而 且 最 终 要 在 机 天 学 习 流 水 线 
中 使 用 这 些 数据 。 


你 一 定 在 想 : 为 什么 我 应 该 花 时 间 阅 读 一 本 大 家 都 不 喜欢 的 事情 的 书 ? 我 们 觉得 , 很 多 人 之 
所 以 不 喜欢 特征 工程 ， 是 因为 他 们 常常 看 不 到 这 些 工作 的 益处。 
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大 部 分 公司 会 同时 招聘 数据 工程 师 和 机 顺 学 习 工 程 师 。 数 据 工 程 师 主要 关注 准备 和 转换 数 
据 ， 而 机 器 学 习 工 程 师 一 般 拥 有 算法 知识 ， 知 道 如 何 从 清洗 好 的 数据 中 挖掘 出 模式 来 。 


这 两 种 工作 一 般 是 分 开 的 , 但 是 会 交织 在 一 起 循环 进行 。 数 据 工程 师 把 数据 集 交 给 机 器 学 习 
工程 师 ， 机 器 学 习 工 程 师 则 会 说 结果 不 好 ,让 数据 工程 师 进 一 步 转换 数据 ， 反 反复 复 。 这 种 过 程 
不 仅 单调 重复 ， 而 且 影响 大 局 。 


如 果 工 程 师 不 具备 特征 工程 和 机 顺 学 习 两 方面 的 知识 ， 则 整个 流程 很 有 可 能 不 会 那么 有 效 。 
因此 本 书 应 运 而 生 。 我 们 会 讨论 特征 工程 ， 以 及 特征 工程 和 机 器 学 习 如 何 直 接 相 关 。 这 个 方法 是 
以 结果 为 导向 的 , 我 们 认为 ， 只 有 能 提高 机 器 学 习 效 果 的 技术 才 是 有 用 的 技术 。 现 在 我 们 来 深入 
了 解数 据 、 数 据 结构 和 机 噩 学 习 的 基础 知识 ， 以 确保 术语 的 统一 性 。 


















































数据 和 机 器 学 习 的 基础 知识 


一 般 来 说 ,我 们 处 理 的 数据 都 是 表格 形式 的 ， 按 行列 组 织 。 可 以 将 其 想象 成 能 在 电子 表格 程 
序 (例如 Microsoft Excel ) 中 打开 。 数 据 的 每 行 又 称 为 观察 值 ( observation )， 代 表 问 题 的 一 个 实 
例 或 例子 。 例 如 ， 如 果 数 据 是 关于 股票 日 内 交易 的 , 那么 每 个 观察 值 有 可 能 是 一 小 时 内 整体 股市 
和 股价 的 涨 跌 。 


又 例如 ， 如 果 数 据 是 关于 网 络 安全 的 , 那么 观察 值 也 许 是 可 能 的 黑客 攻击 , 或 者 是 无 线 网 络 
发 送 的 一 个 数据 包 。 


下 表 是 网 络 安全 领域 的 示例 数据 ， 确 切 地 说 是 网 络 人 侵 领 域 。 






























































DateTime Protocol Urgent Malicious 
June 2nd, 2018 TCP FALSE TRUE 
June 2nd, 2018 HITP TRUE TRUE 
June 2nd, 2018 HITP TRUE FALSE 
June 3rd, 2018 HITP FALSE TRUE 











可 以 看 到 ,每 行 ( 每 个 观察 值 ) 都 是 一 次 网 络 连接 ,有 4 个 属性 :DateTime( 日期) Protocol 
(协议 )、Urgent (紧急 ) 和 Malicious (恶意 )。 我们 暂时 不 深入 人 研究 每 个 属性 ， 先 观察 以 表 
格 形式 给 出 的 数据 结构 。 

因为 大 部 分 数据 都 是 表格 形式 的 ,也 可 以 看 看 一 种 特殊 的 实例 : 数据 只 有 一 列 (一 个 属性 )。 
例如 ， 我们 要 开发 一 个 软件 ， 输 入 房间 的 一 张 图 像 ， 它 会 输出 房间 中 是 否 有 人 。 输 入 的 数据 矩阵 
有 可 能 只 有 一 列 一 一 房间 照片 的 链接 (CURL )， 别 的 什么 都 没有 。 


例如 ， 下 面 的 表格 中 只 有 一 列 ， 列 标题 是 “照片 URL”。 表 格 中 数据 的 值 (这些 URL 仅 为 
示例 ， 并 不 指向 真 的 图 片 ) 对 数据 科学 家 而 言 具 有 相关 性 。 
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照片 URL 

http://photo-storage.io/room/1 
http://photo-storage.io/room/2 
http://photo-storage.io/room/3 
http://photo-storage.io/room/4 


输入 的 数据 有 可 能 只 有 一 列 ， 像 这 个 例子 一 样 。 在 创建 图 像 分 析 系统 时 ,输入 有 可 能 仅仅 是 
图 像 的 URL。 作 为 数据 科学 家 ， 我 们 要 从 这 些 URL 中 构建 特征 。 


数据 科学 家 要 准备 好 接受 并 处 理 多 或 少 、 宽 或 窗 〈 从 特征 上 讲 )、 完 整 或 稀疏 〈 可 能 有 缺失 
值 ) 的 数据 ,并 准备 好 在 机 器 学 习 中 应 用 这 些 数 据 。 现 在 是 时 候 讨 论 机 器 学 习 了 。 机 器 学 习 算法 
是 按 其 从 数据 中 提取 并 利用 模式 、 以 基于 历史 训练 数据 完成 任务 的 能 力 来 定义 的 。 是 不 是 摸 不 到 
头脑 ?机 器 学 习 可 以 处 理 很 多 类 型 的 任务 ， 因 此 我 们 不 给 出 定义 ， 而 是 继续 深入 探讨 。 


大 体 上 ,我 们 把 机 器 学 习 分 为 两 类 : 监督 学 习 和 无 监督 学 习 。 两 种 算法 都 可 以 从 特征 工程 中 
获 益 ， 所 以 了 解 每 种 类 型 非常 重要 。 

1 . 监督 学 学 习 

一 般 来 说 , 我 们 都 是 在 监督 学 习 (也 叫 预 测 分 析 ) 的 特定 上 下 文中 提 到 特征 工程 。 监 督学 习 


算法 专门 处 理 预测 一 个 值 的 任务 , 通常 是 用 数据 中 的 其 他 属性 来 预测 余下 的 一 个 属性 。 以 如 下 表 
示 网 络 入 侵 的 数据 集 为 例 。 



















































































DateTime Protocol Urgent Malicious 
June 2nd, 2018 TCP FALSE TRUE 
June 2nd, 2018 HTTP TRUE TRUE 
June 2nd, 2018 HTTP TRUE FALSE 
June 3rd, 2018 HTTP FALSE TRUE 


还 是 前 文 用 到 的 数据 集 ， 这 次 我 们 在 预测 分 析 的 上 下 文中 深入 探讨 。 


注意 , 数据 集 有 4 个 属性 : DateTime、Protocol、Urgent 和 AR 假设 Malicious 
属性 包含 代表 该 观测 值 是 否 为 恶意 和 人 侵 的 值 。 所 以 在 这 个 小 数据 集中 , 第 1 次 、 第 2 次 和 第 4 次 
连接 都 是 恶意 入侵 。 

进一步 假设 , 在 这 个 数据 集中 , 我 们 要 党 试用 3 个 属性 ( DateTime、Protocol 和 Urgent ) 
准确 预测 Malicious 属性 ,简单 地 说 ,我 们 想 建 立 一 个 系统 ,将 DateTime、Protocol 和 Urgent 
盟 性 的 值 映 射 到 Malicious 的 值 。 监 督学 习 问 题 就 是 这 样 建立 起 来 的 : 


















































Network_features = pd.DataFrame({'datetime': ['6/2/2018', '6/2/2018', 
ra0lB G3720L8"|y.. "protouoLl a [top y. htt "Tttp,. ttn ls 
'urgent': [False, True, True, False]}) 


Network_response = pd.Series([True, True, False, Truel]) 
Network_features 
> 
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datetime protocol urgent 


0 6/2/2018 tcp False 
1 6/2/2018 http True 
2.. "6/2/2018 http True 
3 S63/2018 http False 


Network_response 
> 


0 True 
a True 
区 False 
3 True 


dtype: bool 








在 监督 学 习 中 ,我 们 一 般 将 数据 集中 希望 预测 的 属性 ( 一般 只 有 一 个 ,但 也 不 尽 然 ) 叫 作 响 
应 (response )， 其 余 属性 叫 作 特征 ( feature )。 
也 可 以 认为 , 监督 学 习 是 一 种 利用 数据 结构 的 算法 。 我 们 的 意思 是 ， 机 器 学 习 算 法 会 试图 从 
很 漂亮 整洁 的 数据 中 提取 模式 。 但 是 之 前 我 们 讨论 过 , 不 应 该 想当然 地 认为 进入 流水 线 的 数据 都 























是 干净 的 : 特征 工程 由 此 而 来 。 


























你 可 能 会 问 : 如 果 我 们 不 做 预测 ， 机 器 学 习 又 有 什么 用 呢 ? 问 得 好 。 在 机 器 学 习 可 以 利用 数 
据 结构 之 前 ， 我 们 有 时 需要 调整 乃至 创造 结构 。 无 监督 学 习 在 这 里 大 放 异 彩 。 





2. 无 监督 学 习 




















监督 学 习 的 目的 是 预测 。 我们 利用 数据 的 特色 
要 通过 探索 结构 进行 预测 , 那 就 是 想 从 数据 中 提取 结构 。 要 做 到 后 者 , 一 般 对 数据 的 数值 矩阵 或 



































迭代 过 程 应 用 数学 变换 ， 提 取 新 的 特征 





Lo 























FE 对 响应 进行 预测 ,提供 有 用 的 信息 。 如 果 不 是 








这 个 概念 有 可 能 比 监督 学 习 更 难 理解 ， 我 们 在 此 提供 一 个 例子 来 阐明 。 


@ 无 监督 学 习 的 例子 : 市 场 细 分 





假如 我 们 的 数据 集 很 大 (有 100 万 行 )， 每 行 是 一 个 人 的 基本 特征 ( 年龄 、 性 别 等 ) 以 及 购 
买 商品 的 数量 ( 代表 从 某 个 店铺 购买 的 商品 数 )。 











年 龄 性 ” 别 购买 商品 的 数量 
25 k 1 
28 女 23 
61 妇 3 
54 男 17 
51 男 8 
47 & 3 
27 男 22 
31 廊 14 
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这 是 营销 数据 集 的 一 个 样本 ,每 行 代表 一 个 顾客 , 每 人 有 3 个 基本 属性 。 我 们 的 目标 是 将 这 | 
个 数据 集 细 分 成 不 同 的 类 型 或 聚 类 ， 让 执行 分 析 的 公司 更 好 地 理解 客户 资料 。 
这 里 只 显示 了 100 万 行 数据 的 前 8 行 , 全 部 数据 令 人 望 而 生 其 。 我 们 当然 可 以 对 该 数据 集 进 
行 基本 的 描述 性 统计 分 析 , 例如 计算 所 有 数值 列 的 均值 和 标准 差 等。 不过， 如 果 想 把 100 万 人 划 
分 为 不 同 的 类 型 ， 方 便 市 场 部 门 更 好 地 理解 不 同 的 消费 人 群 、 为 每 类 人 更 精准 地 投放 广告 呢 ? 
每 种 类 型 的 顾客 都 有 独一无二 的 特征 。 例 如 , 有 可 能 20% 的 顾客 属于 年 轻 富裕 阶层 , 他们 的 
年 龄 较 小 、 买 的 商品 数量 较 多 。 
此 类 分 析 和 类 型 的 创建 属于 无 监督 学 习 的 一 个 特殊 类 别 , 称 作 聚 类 , 后 文中 将 详细 讨论 这 种 
机 器 学 习 算 法 。 目 前 我 们 知道 ， 聚 类 会 创造 一 个 新 的 特征 ， 将 顾客 划分 到 不 同类 型 或 聚 类 中 。 









































年 龄 性 别 购买 商品 的 数量 聚 类 
25 女 1 6 
28 女 23 1 
61 女 3 3 
54 男 17 2 
51 男 8 3 
47 灵 3 8 
27 男 22 5 
31 女 14 1 




















以 上 是 应 用 聚 类 算法 后 的 数据 集 。 注意 在 最 后 有 一 个 新 的 聚 类 特征 , 表示 这 个 算法 认为 此 人 
属于 哪个 类 型 。 我 们 的 想法 是 ， 同 一 类 型 的 人 行为 相似 年龄、 性别 和 购买 行为 等 相仿 )。 也 许 
聚 类 6 可 以 叫 作 年 轻 消费 者 。 


这 个 聚 类 的 例子 显示 ,我 们 不 一 定 需要 输出 预测 值 ， 可 以 只 是 深入 了 解数 据 ,， 添加 有 价值 的 
新 特征 ， 甚 至 删除 不 相关 的 特征 。 









































i 注意 , 这 里 将 所 有 的 列 都 称 为 特征 , 因为 无 监督 学 习 没 有 响应 , 我们 没有 做 预测 。 




















现在 是 不 是 清楚 一 些 了 ? 我 们 反复 讨论 的 特征 就 是 本 书 的 重点 ,特征 工程 包括 理解 并 转换 监 


督学 习 和 无 监督 学 习 中 的 特征 。 





1.4 机 器 学 习 算 法 和 特征 工程 的 评估 


注意 , 在 文献 中 ,特征 和 属性 通常 有 明显 的 区 分 。 属 性 一 般 是 表格 数据 的 列 ， 特 征 则 一 般 只 
指 代 对 机 器 学 习 算 法 有 益 的 属性 。 也 就 是 说 ， 某 些 属性 对 机 顺 学 习 系统 不 一 定 有 益 ， 甚 至 有 害 。 
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例如 ， 当 预测 二 手 车 下 次 维修 的 时 间 时 ， 车 的 颜色 应 该 不 会 对 预测 有 什么 帮助 。 

本 书 中 ,我 们 一 般 将 所 有 的 列 都 称 为 特征 ， 直 到 证 明 某 些 列 是 无 用 或 有 害 的 。 之 后 ,我 们 会 
用 代码 将 这 些 属 性 抛弃 。 那 么 ,对 这 种 决定 做 出 评估 就 是 至 关 重 要 的 。 如 何 评估 机 器 学 习 系 统 和 
特征 工程 呢 ? 

















1.4.1 ”特征 工程 的 例子 : 真 的 有 人 能 预测 天 气 吗 


考虑 一 个 用 于 预测 天 气 的 机 器 学 习 流 水 线 。 为 简化 起 见 , 假设 我 们 的 算法 直接 从 传感器 获取 
大 气 数据 ， 并 预测 两 个 值 之 一 : 晴天 或 雨天 。 很 明显 ， 这 条 流水 线 是 分 类 流水 线 ， 只 能 输出 两 个 
答案 中 的 一 个 。 我 们 每 天 早上 运行 这 个 流水 线 。 如 果 算法 输出 上 晴天 而 且 这 天 基本 是 晴朗 的 ， 则 算 
法 正确 ; 同 理 ， 如 果 输 出 雨天 而 且 这 天 下 雨 了 ,那么 算法 也 是 正确 的 。 对 于 其 他 任何 情况 ,输出 
都 是 错 的 。 我 们 在 一 个 月 的 每 一 天 都 运行 算法 ， 这 样 会 收集 差不多 30 个 预测 值 和 实际 观测 到 的 
天 气 值 。 然 后 就 可 以 计算 出 算法 的 准确 率 。 也 许 算法 在 30 天 内 正确 预测 了 20 次 ,那么 准确 率 是 
三 分 之 二 , 大 约 为 67%。 利 用 这 个 标准 化 的 值 或 准确 率 , 我 们 可 以 调整 算法 ,观察 准确 率 上 升 还 
是 下 降 。 

当然 ,这 个 例子 过 度 简化 了 , 但 是 思路 很 明确 : 对 于 任何 机 器 学 习 流水 线 而 言 ， 如 果 不 能 
用 一 套 标 准 指标 评估 其 性 能 ,那么 它 就 是 没 用 的 。 因 此 ， 特 征 工程 不 可 能 没有 评估 过 程 。 本 书 将 
多 次 审视 这 种 思路 ， 但 是 目前 先 简单 谈 一 下 ， 如 何 进行 该 操作 。 

关于 特征 工程 的 话题 一 般 涉及 转换 数据 集 ( 根据 特征 工程 的 定义 )。 为 了 明确 定义 某 一 特征 
工程 是 否 对 机 器 学 习 算 法 有 利 ， 我 们 会 采用 下 节 中 的 步 又 。 







































































1.4.2 ”特征 工程 的 评估 步骤 
以 下 是 评估 特征 工程 的 步 又 ; 


(1) 在 应 用 任何 特征 工程 之 前 ， 得 到 机 器 学 习 模型 的 基准 性 能 ; 

(2) 应 用 一 种 或 多 种 特征 工程 ; 

(3) 对 于 每 种 特征 工程 ， 获 取 一 个 性 能 指标 ， 并 与 基准 性 能 进行 对 比 ; 

(4) 如 果 性 能 的 增 量 ( 变化 ) 大 于 某 个 冰 值 (一般 由 我 们 定义 )， 则 认为 这 种 特征 工程 是 有 益 
的 ， 并 在 机 器 学 习 流水 线 上 应 用 ; 

(5) 性 能 的 改变 一 般 以 百分比 计算 〈 如 果 基 准 性 能 从 40% 的 准确 率 提升 到 76% 的 准确 率 ， 那 
么 改变 是 90% )。 


性 能 的 定义 随 算法 不 同 而 改变 。 大 部 分 优秀 的 主流 机 器 学 习 算 法 会 告诉 你 , 在 数据 科学 的 实 
践 中 有 数 十 种 公认 的 指标 。 
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因为 本 书 的 重点 并 不 在 于 机 器 学 习 ,而 是 理解 和 转换 特征 ,所 以 我 们 会 在 例子 中 用 机 器 学 习 
算法 的 基准 性 能 评估 特征 工程 。 














1.4.3 评估 监督 学 习 算 ; 


当 进 行 预 测 建 模 ( 即 监督 学 习 ) 时 , 性 能 直接 与 模型 利用 数据 结构 的 能 力 ， 以 及 使 用 数据 结 
构 进行 恰当 预测 的 能 力 有 关 。 一 般 而 言 ， 可 以 将 监督 学 习 分 为 两 种 更 具体 的 类 型 : 分 类 ( 预测 定 
性 响应 ) 和 回归 ( 预测 定量 响应 )。 


评估 分 类 问题 时 ， 直 接 用 5 折 交 又 验证 计算 逻辑 回归 模型 的 准确 率 : 
# 评估 分 类 问题 的 例子 


from sklearn.linear model import LogisticRegression 

from sklearn.model_ selection import cross_val_score 

X = some data_in tabular_format 

y = response_ variapble 

lr = LinearRegression() 

scores = cross_val_score(lr, XxX, y, cv=5, scoring='accuracy') 
scores 

SS [SOD Ey nd 0062.09 


与 之 类 似 ， 对 于 回归 问题 ， 我 们 用 线性 回归 的 均 方 误差 ( MSE，mean squared error ) 进行 评 
同样 使 用 5 折 交 又 验证 : 


# 评估 回归 问题 的 例子 

from sklearn.linear model import LinearRegression 

from sklearn.model_ selection import cross_val_score 

xX = some_data_in tabular_ format 

y = response variable 

lr = LinearRegression() 

scores = cross_ val_scorel(lr, XxX, y, Cv=5, scoring='mean _ squared error') 
scores 

Sl [SLDL3 229053043337 32.5437 . 320643 227255432] 


我 们 用 这 两 个 线性 模型 ， 而 不 是 出 于 速度 和 低 方差 的 考虑 使 用 更 新 、 更 高 级 的 模型 。 这 样 可 
以 更 加 确定 ， 性 能 的 增长 直接 与 特征 工程 相关 ， 而 不 是 因为 模型 可 以 发 现 隐藏 的 模式 。 
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1.4.4 评估 无 监督 学 习 算 ; 


这 个 问题 比较 环 手 。 因 为 无 监督 学 习 不 做 出 预测 , 所 以 不 能 直接 根据 模型 预测 的 准确 率 进行 
评估 。 尽 管 如 此 ， 如 果 我 们 进行 了 聚 类 分 析 ( 例如 之 前 的 市 场 细 分 例子 )， 通 常会 利用 轮廓 系数 
( silhouette coefficient， 这 是 一 个 表示 聚 类 分 离 性 的 变量 , 在 -1 和 1 之 间 ) 加 上 一 些 人 工分 析 来 确 
定 特征 工程 是 提升 了 性 能 还 是 在 浪费 时 间 。 


下 面 的 例子 用 Python 和 scikit-learn 导入 并 计算 了 一 些 假 数 据 的 轮廓 系数 : 
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attributes = tabular data 
cluster_labels = outputted_ labels_from clustering 


from sklearn.metrics import silhouette_ score 
silhouette_score(attributes, cluster_labels) 


随 着 讨论 的 深入 ， 后 面 会 花 更 多 时 间 讨论 无 监督 学 习 。 不 过 大 部 分 例子 会 围绕 预测 分 析 / 监 
督学 习 展开 。 














需要 记 住 , 之 所 以 对 评估 的 算法 和 指标 进行 标准 化 , 是 因为 要 展示 特征 工程 的 强 
大 ,而 且 要 让 你 成 功 复 现 我 们 的 过 程 。 实 践 中 , 你 优化 的 性 能 有 可 能 不 是 准确 率 ， 

人 例如 真 阳性 率 〈true positive rate )， 想 用 决策 树 而 不 是 逻辑 回归 。 这 样 很 好 ， 我 
们 鼓励 这 样 做 。 始 终 记 住 ， 要 按 步骤 评估 特征 工程 的 结果 , 并 将 特征 工程 后 的 结 
果 与 基准 性 能 进行 对 比 。 














你 阅读 本 书 的 目的 可 能 并 不 是 提高 机 器 学 习性 能 。 特 征 工程 在 其 他 领域 (例如 假设 检验 和 一 
般 的 统计 ) 中 也 非常 有 用 。 在 本 书 的 几 个 例子 中 , 我 们 会 研究 将 特征 工程 和 数据 转换 应 用 于 各 种 
统计 检验 的 统计 显著 性 上 。 我 们 也 会 探索 R 和 p 值 等 指标 ， 以 帮助 判断 特征 工程 是 否 有 益 。 


大 体 上 ， 我 们 会 在 3 个 领域 内 对 特征 工程 的 好 处 进行 量化 。 
口 监督 学 习 : 也 叫 预 测 分 析 
时 回归 一 一 预测 定量 数据 
> 主要 使 用 均 方 误差 作为 测量 指标 
和 a 分 类 一 一 预测 定性 数据 
> 主要 使 用 准确 率 作为 测量 指标 
口 无 监督 学 习 : 聚 类 一 一 将 数据 按 特 征 行为 进行 分 类 
和 主要 用 轮廓 系数 作为 测量 指标 


口 统计 检验 : 用 相关 系数 、t 检 验 、 卡 方 检验 ， 以 及 其 他 方法 评估 并 量化 原始 数据 和 转换 后 
数据 的 效果 


在 下 面 儿 节 中 ， 我 们 会 讨论 一 下 本 书 要 履 盖 的 内 容 。 



































1.5 “特征 理解 : 我 的 数据 集 里 有 什么 


这 一 章 着 手 为 数据 处 理 打下 基础 ,理解 了 我 们 面前 的 数据 ,就 可 以 更 好 地 明确 下 一 步 的 方向 。 
我 们 会 开始 探索 不 同类 型 的 数据 , 并 且 学 习 如 何 识别 数据 集中 的 数据 类 型 。 我 们 会 从 不 同 的 视角 
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研究 数据 集 , 确定 它们 之 间 的 异同 。 可 以 轻松 地 检查 数据 并 识别 不 同属 性 的 特点 之 后 ,就 能 开始 | 
理解 不 同 的 数据 转换 方法 ， 并 用 其 改进 我 们 的 机 器 学 习 算法 了 。 


在 繁杂 的 切入 点 中 ， 我 们 将 着 眼 于 以 下 几 个 方面 : 


口 结构 化 数据 与 非 结构 化 数据 ; 
口 数据 的 4 个 等 级 ; 
口 识别 数据 的 缺失 值 ; 
D 探索 性 数据 分 析 ; 
口 描述 性 统计 ; 
D 数据 可 视 化 。 

我 们 从 理解 最 基本 的 数据 结构 入 手 , 然后 研究 不 同 的 数据 种 类 。 在 理解 数据 后 ,就 可 以 开始 
修正 有 问题 的 数据 了 。 例 如 ， 我 们 必须 知道 数据 中 有 多 少 缺 失 值 ， 以 及 如 何 处 理 。 

毫 无 疑问 ,数据 可 视 化 、 描 述 性 统计 和 探索 性 数据 分 析 都 是 特征 工程 的 一 部 分 。 我 们 会 从 机 
器 学 习 工 程 师 的 角度 研究 这 些 过 程 。 每 个 过 程 都 可 以 增强 机 器 学 习 流水 线 , 我 们 会 用 它们 试验 并 
修正 对 数据 的 假设 。 












































1.6 ”特征 增强 : 清洗 数据 


在 这 一 章 中 , 我 们 会 用 自己 对 数据 的 理解 ,对 数据 集 进行 清洗 。 本 书 的 大 部 分 内 容 都 会 按 此 
流程 进行 ,用 前 面 昔 节 的 结果 处 理 后 面 章节 的 内 容 。 在 特征 增强 这 步 ， 我 们 可 以 开始 利用 对 数据 
的 理解 修改 数据 集 。 我 们 会 使 用 数学 变换 增强 给 定 的 数据 , 但 是 并 不 删除 或 插入 新 的 属性 ( 这 些 
内 容 在 之 后 儿童 涉及)。 


我 们 探索 的 主题 包括 以 下 这 些 。 


口 对 非 结构 化 数据 进行 结构 化 。 
D 数据 填充 一 一 在 原先 没有 数据 的 位 置 填充 ( 缺失 ) 数据 。 
口 数据 归 一 化 : 


@ 标准 化 (也 称 为 z 分 数 标准 化 ); 
@ 极 差 法 (也 称 为 min-max 标准 化 ); 
Ll 和 1L2 正则 化 (将 数据 投影 到 不 同 的 空间 ， 很 有 趣 )。 
此 时 ,我 们 将 可 以 判断 数据 是 否 有 结构 。 也 就 是 说 ,我们 的 数据 是 否 是 漂亮 的 表格 格式 。 如 
果 不 是 ， 这 一 章 将 提供 将 数据 表格 化 的 工具 。 在 创建 机 器 学 习 流 水 线 时 ， 这 一 步 必 不 可 少 。 


数据 填充 是 个 特别 有 趣 的 话题 。 在 数据 中 填充 缺失 的 部 分 比 听 起 来 要 困难 得 多 。 我 们 会 从 最 
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简单 的 方式 ( 把 有 缺失 值 的 特征 删 掉 ) 讲 到 更 有 趣 也 更 复杂 的 方式 ( 在 其 他 特征 上 进行 机 器 学 习 ， 
填充 缺失 值 )。 在 填充 大 量 缺失 值 后 ， 就 可 以 测量 缺失 值 对 机 带 学 习 算 法 的 影响 了 。 


归 一 化 是 用 (一 般 比 较 简 单 的 ) 数学 工具 改变 数据 的 缩放 比例 。 还 是 一 样 ， 这 可 以 很 简单 ， 
例如 将 英里 转换 为 英尺 、 将 磅 转换 为 千克 ; 也 可 以 很 复杂 ,例如 将 数据 投影 到 单位 球体 上 ( 到 时 
候 会 详细 介绍 )。 


在 这 一 章 和 之 后 的 章节 中 ,我 们 会 更 加 关注 特征 工程 的 量化 评估 流程 。 基 本 上 , 每 当 遇 见 一 
个 新 的 数据 集 或 特征 工程 ,都 要 进行 测试 。 我们 会 根据 不 同 的 标准 为 各 种 特征 工程 方法 打分 , 例 
如 机 器 学习 的 性 能 、 速 度 ， 等 等 。 这 一 章 的 流程 仅 供 参考 ， 并 不 能 作为 指南 ， 因 为 不 能 在 忽略 难 
度 和 性 能 的 情况 下 选择 特征 工程 方法 。 每 个 数据 任务 都 有 自己 的 注意 事项 ,需要 的 流程 可 能 和 先 
前 的 不 同 。 









































1.7 ”特征 选择 对 坏 属 性 说 不 


到 了 这 一 章 , 我 们 在 处 理 新 数据 集 时 已 经 比较 得 心 应 手 了 。 我 们 有 能 力 理解 并 清洗 任何 数据 。 
此 后 ,就 可 以 做 一 些 重大 决策 了 , 例如 ,属性 在 何 种 程度 上 才能 成 为 真正 的 特征 。 注 意 特征 和 属 
性 的 区 别 , 这 里 真正 的 意思 是 :哪些 列 对 我 们 的 机 器 学 习 流 水 线 没有 帮助 而 且 有 害 , 应 该 移 除 掉 ? 
这 一 章 着 重 介绍 如 何 决定 删除 数据 集中 的 哪些 属性 。 我 们 会 研究 几 个 有 助 于 我 们 做 决定 的 统计 和 
迭代 过 程 。 


这 些 过 程 包括 : 


口 相关 系数 ; 

口 识别 并 移 除 多 重 共 线性 ; 

口 卡 方 检验 ; 

口 方差 分 析 ; 

口 理解 p 值 ; 

口 迭代 特征 选择 ; 

口 用 机 咒 学 习 测 量 粹 和 信息 增益 。 


上 述 所 有 过 程 都 会 建议 删除 某 些 特征 ,并 给 出 不 同 的 理由 。 最 后 , 数据 科学 家 要 最 终 决 定 保 
留 哪些 能 为 机 器 学 习 算 法 做 出 贡献 的 特征 。 












































1.8 特征 构建 : 能 生成 新 特征 吗 


在 前 几 章 中 , 我 们 主要 关注 移 除 对 机 器 学 习 流 水 线 不 利 的 特征 ; 这 一 章 则 着 眼 于 构建 全 新 的 
特征 ,并 将 其 正确 地 搬入 数据 集 。 我 们 希望 这 些 新 特征 可 以 更 好 地 保存 新 信息 ,并 生成 新 的 模式 














1.9 特征 转换 : 数学 显 神 ; 


做 
一 
nn 








供 机 器 学 习 流 水 线 使 用 、 提 高 其 性 能 。 

我 们 要 构建 的 特征 可 以 有 很 多 来 源 。 通常 ,我们 用 现 有 的 特征 构建 新 特征 。 可 以 对 现 有 特征 
进行 转换 ,将 结果 向 量 和 原 向 量 放置 在 一 起 。 我 们 还 会 研究 从 其 他 的 系统 中 引入 特征 。 例如， 如 
果 处 理 数据 的 目的 是 要 基于 购物 行为 对 顾客 群 进行 聚 类 , 加 入 人 口 普 查 数据 ( 这些 数据 不 在 企业 
的 购物 数据 中 ) 就 有 可 能 对 结果 有 利 。 然 而 这 样 会 带 来 如 下 几 个 问题 。 


口 如 果 普 查 数据 中 有 1700 个 无 名 氏 , 但 是 企业 只 知道 其 中 13 个 人 的 购物 数据 , 那么 如 何 从 
1700 人 里 找到 这 13 个 人 ?这 叫 作 实体 匹配 ( entity matching )。 
口 人 口 普查 数据 很 大 ， 实 体 匹配 有 可 能 极度 耗 时 。 
除 此 之 外 ,还 会 有 其 他 问题 增加 这 个 步骤 的 难度 , 但 是 也 经 常会 创造 出 一 个 非常 密集 、 数 据 
丰富 的 环境 。 
在 这 一 章 中 , 我 们 会 花 时 间 讨 论 如 何 通 过 高 度 非 结 构 化 的 数据 手动 创建 特征 。 文 本 和 图 像 是 
其 中 的 两 个 例子 。 因 为 机 器 学 习 和 人 工 智能 流水 线 无 法 理解 这 些 数据 本 身 , 所 以 需要 手动 创建 可 
以 代表 图 像 或 文本 的 特征 。 举 一 个 简单 的 例子 ,假设 我 们 要 编写 自动 驾驶 汽车 的 基础 代码 。 首 先 
要 做 的 就 是 创建 一 个 模型 ,接收 汽车 前 方 的 图 像 来 决定 是 否 应 该 刹车 。 直 接 输 入 原始 图 像 的 办 法 
不 够 好 ， 因 为 机 器 学 习 算 法 不 知道 如 何 处 理 图 像 。 我 们 必须 手动 构建 特征 。 可 以 用 以 下 几 种 方法 
分 割 原始 图 像 。 
口 考虑 像素 的 颜色 强度 ， 将 每 个 像素 作为 一 个 特征 : 
和 例如 ， 如 果 车 载 摄像 头 的 分 辩 率 是 2048 像素 x 1536 像素 ， 那 么 会 有 3 145 728 列 
口 将 每 行 像素 视 为 一 个 特征 ， 将 每 行 的 平均 颜色 作为 值 : 
晶 这 样 只 有 1536 列 


口 将 图 像 投影 到 某 个 空间 中 ， 其 中 每 个 特征 代表 图 像 中 的 一 个 对 象 。 这 个 办 法 是 最 困难 的 ， 

























































































结果 可 能 如 下 : 
停车 标志 猫 天 空 道路 草地 潜水 艇 
1 0 1 1 4 0 


在 上 表 中 ， 特 征 是 有 可 能 存在 或 不 存在 于 图 像 中 的 对 象 ， 值 代表 该 对 象 出 现 的 次 数 。 如 
果 模 型 收 到 这 样 的 信息 ， 就 最 好 要 停车 了 1! 


1.9 ”特征 转换 : 数学 显 神通 


我 们 会 在 这 一 音 接 触 一 些 有 趣 的 数学 知识 。 我 们 已 经 讨论 了 如 何 理解 并 清洗 特征 , 也 研究 了 
如 何 移 除 或 增加 特征 。 在 特征 构建 那 一 章 , 我 们 需要 手动 构建 新 的 特征 。 在 之 前 自动 驾驶 的 例子 
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中 ,我 们 必须 用 人 脑 想 出 3 种 解构 停车 标志 的 方法 。 固 然 可 以 写 代 码 把 这 个 流程 自动 化 , 但 是 最 
终 还 是 需要 人 工 决策 。 


这 一 童 将 开始 着 眼 于 自动 创建 特征 , 因为 这 些 特征 适用 于 数学 维度 。 如 果 把 数据 理解 为 一 个 
n 维 空间 中 的 向 量 (n 是 列 数 )， 那么 我 们 可 以 考虑 ， 能 不 能 创建 一 个 k 维 (k<n) 的 子 集 ， 完 全 
或 几乎 完全 表示 原 数 据 ， 从 而 提升 机 器 学 习 速 度 或 性 能 ? 这 里 的 目标 是 , 创建 一 个 维度 更 低 、 比 
原 有 高 维度 数据 集 性 能 更 好 的 数据 集 。 


第 一 个 问题 是 ， 我 们 做 特征 选择 的 时 候 不 就 是 在 降 维 吗 ? 假如 原来 的 数据 有 17 个 特征 ， 我 
们 删除 5 个 ， 就 把 数据 的 维度 降 到 12 了 ， 是 不 是 ? 没 错 ， 当 然 是 ! 但 是 这 里 不 是 简单 地 讨论 删 
除 一 些 列 ， 而 是 对 数据 集 应 用 复杂 的 数学 变换 ( 一般 从 线性 代数 中 寻求 灵感 )。 


一 个 值得 注意 的 例子 是 主 成 分 分 析 (PCA ，principal component analysis ), 我 们 会 花 一 些 时 间 
深入 探讨 。 这 种 转换 将 数据 分 成 3 个 完全 不 同 的 数据 集 , 然后 可 以 用 这 些 结果 创造 全 新 的 数据 集 ， 
让 其 性 能 超过 原先 的 数据 集 ! 


下 面 的 这 个 例子 来 自 普林斯顿 大 学 的 研究 实验 ， 用 PCA 探究 基因 表达 的 模式 。 这 是 对 降 
维 的 一 个 绝 佳 应 用 , 因为 基因 和 基因 组 合 极 多 , 即使 是 世界 上 最 精巧 的 算法 也 需要 很 长 时 间 才 能 
处 理 。 

















































































































A = VU. Ww ，V 














上 图 中 ，A 代表 原始 数据 集 ，U、W 和 V 代表 奇异 值 分 解 的 结果 。 然 后 将 结果 放 在 一 起 ， 
创造 一 个 新 的 数据 集 ， 在 一 定 程度 上 替代 A。 




















1.10 ”特征 学 习 : 以 Al 促 Al 


该 领域 项 层 的 研究 是 ， 用 目前 最 精巧 的 算法 自动 构建 特征 ， 以 改善 机 器 学 习 和 AI 流水 线 。 
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前 面 的 自动 特征 创建 是 用 数学 公式 处 理 数据 , 但 最 终 还 是 要 让 人 类 选择 公式 并 从 中 获 益 。 这 
一 章 概 述 的 算法 不 是 数学 公式 ,而 是 尝试 对 数据 进行 理解 和 建 模 的 一 种 架构 ,从 而 发 掘 数据 的 模 
式 并 创建 新 数据 。 这 个 描述 目前 可 能 比较 模糊 ， 但 是 希望 你 已 经 心动 了 ! 


我 们 会 主要 关注 基于 神经 网 络 (节点 和 权重 ) 的 算法 。 这 些 算法 在 数据 上 增加 的 特征 虽然 有 
时 不 为 人 类 所 理解 ， 但 是 机 器 会 大 受 神 益 。 这 章 的 主题 包括 : 
口 受 限 玻 尔 兹 曼 机 (RBM，restricted Boltzmann machine ); 
口 Word2vec/GloVe 等 词 租 人 (word embedding ) 算法 "。 




















Word2vec 和 GloVe 算法 可 以 将 高 维度 数据 垦 入 文本 的 词 项 (token ) 中 。 例如，Word2vec 算 
法 的 可 视 化 结果 可 能 如 下 图 所 示 。 






























































在 欧 几 里 得 空间 中 将 单词 表示 为 向 量 后 ,就 可 以 得 到 数学 样式 的 结果 。 在 上 面 的 例子 中 ,加 
入 自动 生成 的 特征 后 ， 可 以 在 Word2vec 算法 的 帮助 下 通过 计算 单词 的 向 量 表示 来 对 单词 进行 加 
减 。 然 后 可 以 得 到 有 趣 的 结论 ， 例 如 国王 ~ 男 + 女 = 女王 。 历 害 ! 


1.11 小 结 




















地 征 工程 是 数据 科学 家 和 机 器 学 习 工 程 师 需 要 承担 的 一 项 重大 任务 。 这 项 任务 对 于 成 功 的 、 
可 以 投入 生产 的 机 需 学 习 流水 线 而 言 必 不 可 少 。 在 接 下 来 的 7 章 中 , 我 们 将 讨论 特征 工程 的 6 个 
主要 方面 。 

















人 @D 词 嵌入 算法 的 意思 是 用 向 量 表示 每 个 单词 ， 聚 类 的 结果 中 相似 单词 的 距离 会 较 近 ， 不 同 的 单词 则 会 分 开 。 
一 译 者 注 
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特征 工程 简介 











解决 。 


口 特征 理解 : 
口 特征 增强 : 
口 特征 选择 : 
D 特征 构建 : 
口 特征 转换 : 
口 特征 学 习 : 


学 习 如 何 识别 定量 数据 和 定性 数据 。 

清洗 和 填充 缺失 值 ， 最 大 化 数据 集 的 价值 。 

通过 统计 方法 选择 一 部 分 特征 ， 以 减少 数据 噪声 。 

构建 新 的 特征 ， 探 索 特 征 间 的 联系 。 

提取 数据 中 的 隐藏 结构 ， 用 数学 方法 转换 数据 集 、 增 强 效果 。 

利用 深度 学 习 的 力量 ， 以 全 新 的 视角 看 待 数据， 从 而 揭示 新 的 问题 ， 并 予以 









































本 书 将 探索 特征 工程 ,因为 特征 工程 会 影响 到 机 带 学 习 的 结果 。 在 将 特征 工程 这 个 大 主题 分 





为 子 主 题 ,， 并 在 每 草 深 入 讨论 一 个 主题 后 , 我 们 可 以 更 加 深入 地 理解 这 些 过 程 的 原理 ,以 及 如 何 
在 Python 中 加 以 应 用 。 


在 下 一 章 中, 我 们 会 直接 介绍 第 一 个 主题 特征 理解 。 终 于 可 以 开始 处 理 真实 数据 了 ， 现 在 就 


来 吧 ! 

















特征 理解 : 我 的 数据 集 里 
有 什么 

















终于 可 以 开始 处 理 一 些 真实 的 数据 ,编写 真实 的 代码 ,看 到 真正 的 成 效 了 ! 具体 而 言 ,我 们 
会 深入 了 解 以 下 内 容 : 


口 结构 化 数据 与 非 结构 化 数据 ; 
口 定量 数据 与 定性 数据 ; 
D 数据 的 4 个 等 级 ; 
口 探索 性 数据 分 析 和 数据 可 视 化 ; 
D 描述 性 统计 。 
上 面 的 每 个 主题 都 会 让 我 们 更 好 地 理解 自己 面前 的 数据 ,数据 集 里 有 什么 、 没 有 什么 ,以 及 
对 如 何 进一步 学 习 的 基本 见解 。 


如 果 你 熟悉 锡 南 的 男 一 本 书 《 数 据 科 学 原理 》( Principles of Data Science )， 会 发 现 本 章 的 大 
部 分 内 容 都 对 应 于 这 本 书 的 第 2 章 。 不 过 ,本章 会 更 多 地 从 机 咒 学 习 的 角度 ， 而 非 整 体 的 角度 来 
看 待 数据 。 











2.1 数据 结构 的 有 无 
拿 到 一 个 新 的 数据 集 后 ， 首 要 任务 是 确认 数据 是 结构 化 还 是 非 结构 化 的 。 


D 结构 化 《有 组 织 ) 数据 : 可 以 分 成 观察 值 和 特征 的 数据 ， 一 般 以 表格 的 形式 组 织 〈 行 是 
观察 值 ， 列 是 特征 )。 
口 非 结构 化 〈 无 组 织 ) 数据 : 作为 自由 流动 的 实体 ， 不 遵循 标准 组 织 结构 ( 例如 表格 ) 的 
数据 。 通 常 ， 非 结构 化 数据 在 我 们 看 来 是 一 团 数据 ， 或 只 有 一 个 特征 ( 列 )。 


下 面 两 个 例子 展示 了 结构 化 和 非 结 构 化 数据 的 区 别 : 


























We 
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口 以 原始 文本 格式 存储 的 数据 ， 例 如 服务 器 日 志和 推 文 ， 是 非 结构 化 数据 ; 
口 科学 仪器 报告 的 气象 数据 是 高 度 结构 化 的 ， 因 为 存在 表格 的 行列 结构 。 











非 结构 化 数据 的 例子 : 服务 器 日 志 


我 们 从 公共 数据 中 提取 了 一 些 服 务 器 日 志 ， 放 在 文本 文件 中 , 作为 非 结 构 化 数据 的 例子 。 可 
以 看 看 这 种 数据 的 样子 ， 方 便 日 后 识别 : 


# 导入 数据 转换 包 Pandas 

import pandas as pd 

# 从 服务 器 日 志 中 创建 Pandas DataFrame 

logs = pd.read table('../data/server_logs.txt', header=None, names=['Info']) 


# header=None 代表 数据 的 第 一 行 是 第 一 个 数据 点 ， 而 不 是 列 名 
# names=['Info] 表示 我 在 DataFrame 中 手动 设置 了 列 名 ， 方 便 使 用 


我 们 创建 了 一 个 叫 作 1ogs 的 Pandas DataFrame， 用 于 存放 服务 器 日 志 。 可 以 用 .head() 方 
法 看 一 下 前 儿 行 : 

# 查看 前 5 行 

logs.head() 


logs DataFrame 中 数据 的 前 5 行 如 下 表 所 示 。 


Info 
0 64.242.88.10 - - [07/Mar/2004:16:05:49 -0800] .… 
1 64.242.88.10 - - [07/Mar/2004:16:06:51 -0800] ... 
2 64.242.88.10 - - [07/Mar/2004:16:10:02 -0800] ... 
3 64.242.88.10 - - [07/Mar/2004:16:11:58 -0800] ... 
4 64.242.88.10 - - [07/Mar/2004:16:20:55 -0800] ... 








可 以 发 现 , 表 中 每 行 代表 一 篇 日 志 ， 而且 只 有 一 列 : 日 志文 本 。 这 个 文本 并 不 是 特征 ， 只 是 
来 自 服务 器 的 原始 日 志 。 这 个 例子 很 好 地 代表 了 非 结构 化 数据 。 通常 ,文本 形式 的 数据 都 是 非 结 
构 化 的 。 


重要 的 是 要 认识 到 ， 大 部 分 非 结 构 化 数据 都 可 以 通过 一 些 方法 转换 为 结构 化 数 
据 ， 这 个 问题 我 们 下 章 再 聊 。 




















本 书 中 要 处 理 的 大 部 分 数据 都 是 结构 化 的 。 也 就 是 说 ,数据 会 有 行 和 列 。 明 白 了 这 些 , 就 可 
以 开始 研究 表格 数据 中 值 的 类 型 了 。 





2.2 ”定量 数据 和 定性 数据 
为 了 完成 对 数据 的 判断 ,我 们 从 区 分 度 最 高 的 顺序 开始 。 在 处 理 结构 化 的 表格 数据 时 ( 大 部 








2.2 定量 数据 和 定性 数据 21 


























分 时 候 都 是 如 此 )， 第 一 个 问题 一 般 是 : 数据 是 定量 的 ， 还 是 定性 的 ? 
定量 数据 本 质 上 是 数值 ， 应 该 是 衡量 某 样 东西 的 数量 。 
定性 数据 本 质 上 是 类 别 ， 应 该 是 描述 某 样 东西 的 性 质 。 
基本 示例 : 


口 以 华氏 度 或 摄氏 度 表示 的 气温 是 定量 的 ; 
口 阴 天 或 晴天 是 定性 的 ; 

口 白宫 参观 者 的 名 字 是 定性 的 ; 

口 献血 的 血 量 是 定量 的 。 


上 面 的 例子 表明 , 对 于 类 似 的 系统 , 我 们 可 以 从 定量 数据 和 定性 数据 两 方面 来 描述 。 事实 上 ， 
在 大 多 数 数据 集中 ， 我 们 会 同时 处 理 定量 数据 和 定性 数据 。 


有 时 ， 数 据 可 以 同时 是 定量 和 定性 的 。 例 如 ， 和 餐厅 的 评分 (1 ~S 星 ) 虽然 是 数 ， 但 是 这 个 
数 也 可 以 代表 类 别 。 如 果 餐 厅 评 分 应 用 要 求 你 用 定量 的 星 级 系统 打分 , 并 且 公 布 带 小 数 的 平均 分 
数 (例如 4.71 星 )， 那 么 这 个 数据 是 定量 的 。 如 果 该 应 用 问 你 的 评价 是 讨厌 、 还 行 、 喜 欢 、 喜 爱 
还 是 特别 喜爱 , 那么 这 些 就 是 类 别 。 由 于 定量 数据 和 定性 数据 之 间 的 模糊 性 ,我 们 会 使 用 一 个 更 
深层 次 的 方法 进行 处 理 ， 称 为 数据 的 4 个 等 级 。 在 此 之 前 ， 先 介绍 本 章 的 第 一 个 数据 集 ， 巩 国 一 
下 定性 和 定量 数据 的 例子 。 




























































































































































































按 工 作 分 类 的 工资 
我 们 先导 入 一 些 包 : 


导入 探索 性 数据 分 析 所 需 的 包 

存储 表格 数据 

import pandas as pd 

数学 计算 包 

import numpy as np 

流行 的 数据 可 视 化 包 

import matplotlib.pyplot as plt 
另 一 个 流行 的 数据 可 视 化 包 

import seaborn as sns 
允许 行内 泻 染 图 形 

smatplotlib inline 

流行 的 数据 可 视 化 主题 
plt.style.use('fivethirtyeight') 


然后 导入 第 一 个 数据 集 , 探索 在 旧金山 做 不 同 工 作 的 工资 。 这 个 数据 集 可 以 公开 获得 ， 随 
使 用 : 


# 导入 数据 集 
# https://data.sfgov.org/City-Management-and-Ethics/Salary-Ranges-by-Job- 











省 
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Classification/7h4w-reyq 






























































salary_ranges = pd.read csv('../data/Salary_Ranges_ by_Job Classification.csv') 
# 查看 前 几 行 
salary_ranges.head() 
我 们 先 看 一 下 前 儿 行 数据 。 
Job Sal End | Salary |sal Biweekly |Biweekly |union |Extended |Pay 
SstD Code EfiDate Date SetlD |Plan Grade'[Step a Low RatejCode |Step Type 
0 ICOMMN |0109 107/01/2009 |06/30/2010 ICOMMN |SFM |00000 1 $0.00 $0.00 330 0 C 
12:00:00 ”|12:00:00 
AM AM 
1 ICOMMN |0110 |07/01/2009 |06/30/2010 |ICOMMN |SFM |00000 1 $15.00 $15.00 323 0 D 
12:00:00 ”|12:00:00 
AM AM 
2 ICOMMN |0111 |07/01/2009 |06/30/2010 ICOMMN |SFM |00000 1 $25.00 $25.00 323 0 D 
12:00:00 ”|12:00:00 
AM AM 
3 ICOMMN |0112 |07/01/2009 |06/30/2010 ICOMMN |SFM |00000 1 $50.00 $50.00 323 0 D 
12:00:00 ”|12:00:00 
AM AM 
4 ICOMMN |0114 |07/01/2009 |06/30/2010 ICOMMN |SFM |00000 1 $100.00 | $100.00 | 323 0 M 
12:00:00 ”|12:00:00 
AM AM 
可 以 看 到 表格 有 很 多 列 , 而 且 已 经 能 发 现 其 中 一 些 是 定性 或 定量 的 。 我 们 用 .info () 方 法 了 


解 一 下 数据 有 多 少 行 : 


# 查看 数据 有 多 少 行 ， 是 否 有 缺失 











salary_ranges.info() 


<class 'pandas.core.frame.DataFrame'> 


RangeIndex: 1356 entries, 


Data columns (total 13 columns) : 


SetID 

Job Code 

Eff Date 

Sal End Date 
Salary SetID 

Sal Plan 

Grade 

Step 

Biweekly High Rate 
Biweekly Low Rate 
Union Code 
Extended Step 

Pay Type 


L356 
1356 
1356 
L356 
1356 
1356 
135.6 
1356 
1356 
1356 
1356 
L356 
1356 











值 ， 以 及 每 列 的 数据 类 型 


chy Wh Whath et a 


0 to 1355 
non-null objec 
non-null objec 
non-null objec 
non-null objec 
non-null objec 
non-null objec 
non-null objec 
non-null int64 
non-null objec 
non-null objec 
non-null int64 
non-null int64 
non-null object 
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dtypes: int64(3), object(10) 
memory usage: 137.8+ KB 


可 以 看 到 ,数据 有 1356 个 条 目 ( 行 ) 和 13 列 。. info() 方 法 也 会 报告 每 列 的 非 空 (non-null ) 
项 目 数 。 这 点 非常 重要 ， 因 为 缺失 数据 是 特征 工程 中 最 常见 的 问题 之 一 。 在 Pandas 包 中 有 很 多 
方法 可 以 识别 和 处 理 缺 失 值 ， 其 中 计算 缺失 值 数 量 最 快 的 方法 是 : 


salary_ranges.isnull().sum() 


SetID 

Job Code 

Eff Date 

Sal End Date 
Salary SetID 

Sal Plan 

Grade 

Step 

Biweekly High Rate 
Biweekly Low Rate 
Union Code 
Extended Step 

Pay Type 

dtype: int64 


数据 中 看 起 来 没有 缺失 值 ， 可 以 (暂时 ) 松 一 口气 了 。 接 下 来 用 aescripe 方法 查看 一 些 定 
量 数据 的 描述 性 统计 (应 该 有 定量 列 )。 注 意 ，describe 方法 默认 描述 定量 列 ， 但 是 如 果 没 有 
定量 列 ， 也 会 描述 定性 列 : 


# 显示 描述 性 统计 
salary_ranges.dqescripe() 





CN .2 TL A 














下 表 可 以 加 深 理解 。 
Step Union Code Extended Step 
count 1356.000000 1356.000000 1356.000000 
mean 1.294985 392.676991 0.150442 
std 1.045816 338.100562 1.006734 
min 1.000000 1.000000 0.000000 
25% 1.000000 21.000000 0.000000 
50% 1.000000 351.000000 0.000000 
75% 1.000000 790.000000 0.000000 
max 5.000000 990.000000 11.000000 


Pandas 认为 ， 数 据 只 有 3 个 定量 列 : step、Union Code 和 Extended Step ( 步 进 、 工 会 
代码 和 增强 步 进 )。 先 不 说 步 进 和 增强 步 进 ， 很 明显 工会 代码 不 是 定量 的 。 虽 然 这 一 列 是 数 ， 但 
这 些 数 不 代表 数量 ， 只 代表 某 个 工会 的 代码 。 因 此 需要 做 一 些 工作 来 理解 我 们 感 兴趣 的 特征 。 最 
值得 注意 的 特征 是 一 个 定量 列 Biweekly High Rate ( 双 周 最 高 工资 ) 和 一 个 定性 列 Grade ( 工 
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作 种 类 )。 


salary_ranges = salary_ranges[['Biweekly High Rate', 'Grade']] 
salary_ranges.head() 


上 面 代码 的 执行 结果 如 下 所 示 。 








Biweekly High Rate Grade 
0 $0.00 00000 
1 $15.00 00000 
2 $25.00 00000 
3 $50.00 00000 
4 $100.00 00000 














我 们 清理 一 下 数据 , 移 除 工 资 前 面 的 美元 符号 ,保证 数据 类 型 正确 。 当 处 理 定量 数据 时 , 一 
般 使 用 整数 或 浮 点 数 作 为 类 型 ( 最 好 使 用 浮 点 数 ); 定性 数据 则 一 般 使 用 字符 串 或 Unicode 对 象 。 


# 删除 工资 的 美元 符号 
salary_ranges['Biweekly High Rate'] .describe() 








count 1356 
unique 593 
tSB $3460.00 
freq 2 


Name: Biweekly High Rate, dtype: object 


我 们 可 以 用 Pandas 的 map 功能 ， 将 函数 映射 到 整个 数据 集 : 


# 为 了 可 视 化 ， 需 要 删除 美元 符号 
salary_ranges['Biweekly High Rate'] = salary_ranges['Biweekly High Rate'] .map (lambda 
value: value.replace('$','')) 





ttt 


# 检查 是 否 已 删除 干净 
salary_ranges.head() 








执行 结果 如 下 : 
Biweekly High Rate Grade 
0 0.00 00000 
1 15.00 00000 
2 25.00 00000 
3 50.00 00000 
4 100.00 00000 


最 后 ， 将 Biweekly High Rate 列 中 的 数据 转换 为 浮 点 数 : 


2.3 数据 的 4 个 等 级 


25 





# 将 双 周 最 高 工资 转换 为 浮 点 数 
salary_ranges['Biweekly High Rate'] 
Rate'] .astype (float) 


同时 ,将 Grade 列 中 的 数据 转换 为 字符 日 


# 将 工作 种 类 转换 为 字符 囊 
salary_ranges['Grade'] = salary_rang 
# 检查 转换 是 否 生 效 


salary_ranges.info() 


‘pandas.core.frame.DataFrame' 

1356 entries, 0 to 1355 
(total 2 columns): 

1356 non-null 

1356 non-null 

float64(1), object (1) 

21.3+ KB 


<class 
RangelIndex: 

Data columns 
Biweekly High Rate 
Grade 

dtypes: 
memory usage: 


可 以 看 见 ， 我们 共有 : 


口 1356 行 (和 开始 时 相同 ) 
口 2 列 (我们 选择 的 ) 





= salary_ranges['Biweekly High 





Ud 


es['Grade'] .astype (str) 


> 


float64 
object 


和 双 周 最 高 工资 : 定量 列 ， 代 表 某 个 部 门 的 平均 最 高 工资 

















> 此 列 是 定量 的 ， 因 为 其 中 的 值 是 
> 数据 类 型 是 浮 点 数 ， 因 为 进行 了 
@ 工作 种 类 : 工资 对 应 的 部 门 


> 此 列 肯定 是 定性 的 ， 因 为 代码 代 
> 数据 类 型 是 对 象 ，Pandas 会 把 字 








数 ， 代 表 某 人 每 两 周 的 工资 
强制 转换 


表 一 个 部 门 ， 而 不 是 数量 
符 串 归 为 此 类 


为 了 进一步 研究 定量 数据 和 定性 数据 ， 我 们 开始 研究 数据 的 4 个 等 级 。 


2.3 数据 的 4 个 等 级 

我 们 已 经 可 以 将 数据 分 为 定量 和 定性 的 ， 
口 定 类 等 级 (nominal level ) 
口 定 序 等 级 (ordinal level ) 


口 定 距 等 级 (interval level ) 
口 定 比 等 级 (ratio level ) 





每 个 等 级 都 有 不 同 的 控制 和 数学 操作 等 级 。 了 解数 据 的 等 级 十 分 重要 , 因为 它 决定 了 可 以 执 


行 的 可 视 化 类 型 和 操作 。 
































但 是 还 可 以 继续 分 类 。 


数据 的 4 个 等 级 是 : 
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2.3.1 定 类 等 级 


定 类 等 级 是 数据 的 第 一 个 等 级 , 其 结构 最 弱 。 这 个 等 级 的 数据 只 按 名 称 分 类 。 例如, 血型 (A、 
B、O 和 AB 型 )、 动 物 物种 和 人 名 。 这 些 数据 都 是 定性 的 。 


其 他 的 例子 包括 : 
口 在 上 面 “| 

















可 以 执行 的 数学 操作 
对 于 每 个 等 级 , 我 们 都 会 简要 介绍 可 以 执行 的 数学 操作 ,以 及 不 可 以 执行 的 数学 操作 。 在 这 
个 等 级 上 ,不 能 执行 任何 定量 数学 操作 ,例如 加 法 或 除法 。 这 些 数 学 操作 没有 意义 。 因 为 没有 加 
法 和 除法 ， 所 以 在 此 等 级 上 找 不 到 平均 值 。 当 然 了 ,没有 “平均 名 ”或 “平均 工作 ”这 种 说 法 。 




















日 金山 工作 工资 ”的 数据 集中 ， 工 作 种 类 处 于 定 类 等 级 ; 
口 对 于 公司 的 访客 名 单 ， 访 客 的 姓 和 名 处 于 定 类 等 级 ; 
口 实验 中 的 动物 物种 处 于 定 类 等 级 。 


但 是 ， 我 们 可 以 用 Pandas 的 value_counts 方法 进行 计数 : 
# 对 工作 种 类 进行 计数 


salary_ranges['Grade'] .value_counts().head() 


00000 
07450 
07170 
07420 
06870 
Name: 


出 现 最 多 的 工作 种 类 是 00000, 意味 着 这 个 种 类 是 众 数 ， 即 最 多 的 类 别 。 因 为 能 在 定 类 


61 
2 
9 
> 
9 


Grade, 


dtype: int64 

















上 进行 计数 ， 所 以 可 以 绘制 图 表 ( 如 条 形 图 ): 


# 对 工作 种 类 绘制 条 形 图 





等 级 


可 3 





salary_ranges['Grade'] .value counts().sort values (ascending=False) .head(20) .plot 
(kind='bar') 


以 上 代码 的 结果 如 下 图 所 示 。 





00000 





06870 mam 
07170 mem 
07420 mmm 
07230 mm 
06940 msm 
06070 mm 
06450 mum 
07220 mn 
07110 mm 
06470 mm 
07020 mam 
07380 Em 
07160 Es 
06860 me 
07080 m= 
07270 Es 
06990 ms 
07060 m= 


07450 mmm 
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在 定 类 等 级 上 ， 也 可 以 绘制 饼 图 : 
# 对 工作 种 类 绘制 饼 图 (前 5 项 ) 


salary_ranges['Grade'].value_counts() .sort_values (ascending=False) .head(5) .plot 
(kind='pie') 





以 上 代码 的 结果 如 下 图 所 示 。 





Grade 


07420 














2.3.2” 定 序 等 级 





定 类 等 级 为 我 们 提供 了 很 多 进一步 探索 的 方法 。 向 上 一 级 就 到 了 定 序 等 级 。 定 序 等 级 继承 了 
定 类 等 级 的 所 有 属性 ， 而 且 有 重要 的 附加 属性 : 


口 定 序 等 级 的 数据 可 以 自然 排序 ; 
口 这 意味 着 ， 可 以 认为 列 中 的 某 些 数据 比 其 他 数据 更 好 或 更 大 。 


和 定 类 等 级 一 样 ， 定 序 等 级 的 天 然 数据 属性 仍然 是 类 别 ， 即 使 用 数 来 表示 类 别 也 是 如 此 。 
可 以 执行 的 数学 操作 




















和 定 类 等 级 相 比 ， 定 序 等 级 多 了 一 些 新 的 能 力 。 在 定 序 等 级 , 我 们 可 以 像 定 类 等 级 那样 进行 
计数 ， 也 可 以 引入 比较 和 排序 。 因 此 ， 可 以 使 用 新 的 图 表 了 。 不 仅 可 以 继续 使 用 条 形 图 和 人 饼 图 ， 
而 且 因为 能 排序 和 比较 ， 所 以 能 计算 中 位 数 和 百 分 位 数 。 对 于 中 位 数 和 百 分 位 数 ， 我们 可 以 绘制 
茎 叶 图 和 箱 线 图 。 


其 他 的 例子 包括 : 





口 使 用 李 克 特 量 表 "”( 比如 1 ~ 10 的 评分 ); 
口 考试 的 成 绩 (FE、D、C、B、A)。 








我 们 引入 一 个 新 的 数据 集 来 解释 定 序 等 级 的 数据 。 这 个 数据 集 表 示 多 少 人 喜欢 旧金山 国际 机 





























J 李 克 特 量 表 ( Likert scale ) 是 调查 研究 中 常用 的 心理 反应 量 表 ， 由 一 组 陈述 组 成 ， 每 个 陈述 有 从 “非常 同意 ” 
到 “非常 不 同意 ” 几 种 回答 ， 由 高 到 低 计 为 不 同 的 分 数 。 编者 注 
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场 (IATA 代码 : SFO )， 也 可 以 在 旧金山 的 公开 数据 库 中 获取 ( https://data.sfgov.org/api/views/ 
Imjr8-p6m5S/ 上 rows.csv?accessType=DOWNLOAD )。 

# 导入 数据 集 

customer = pd.read_csv('../data/2013_SFO_Customer_survey.csv') 

这 个 CSV 文件 有 很 多 列 : 


customer.shape 
(3535; .95.) 


确切 地 说 , 是 95 列 。 有 关 这 个 数据 集 的 更 多 信息 , 请 参见 网 站 上 的 数据 字典 ( phttps://data.sfgov. 
org/api/views/mjr8-p6m5/files/FHNAUt MCDOC8CyLD3]jqZ1-Xdlaap8LO086KLWQ9SKZ, 8?download= 
true&filename=AIR DataDictionary 2013-SFO-Customer-Survey.pdf )。 


现在 ,我 们 关注 Q7A_ART 这 一 列 。 如 数据 字典 所 述 ，Q7A_ART 是 关于 艺术 品 和 展览 的 。 可 
能 的 选择 是 0、1、2、3、4、5、6， 每 个 数字 都 有 含义 。 


口 1: 不 可 接受 

口 2: 低 于 平均 

口 3: 平均 

口 4: 不 错 

口 5: 特别 好 

口 6: 从 未 有 人 使 用 或 参观 过 


口 0: 空 


可 以 这 样 表示 : 
art_ratings = customer['Q7A_ART'] 
art_ratings.describe() 














count 3535.000000 


mean 4.300707 
Std 1.341445 
min 0.000000 
25% 3.000000 
50% 4.000000 
75% 5.000000 
max 6.000000 


Name: Q7A_ART, dtype: float64 

Pandas 把 这 个 列 当 作 数 值 处 理 了 , 因为 这 个 列 充满 数 。 然而 我 们 需要 知道 , 虽然 这 些 值 是 数 ， 
但 每 个 数 其 实 代表 的 是 类 别 ， 所 以 该 数据 是 定性 的 ， 更 具体 地 说 ， 是 属于 定 序 等 级 。 如 果 删 除 0 
和 6 这 两 个 类 别 ， 剩 下 的 5 个 有 序 类 别 类 似 于 餐厅 的 评分 : 

# 只 考虑 工 一 5 


art_ratings = art_ratings[ (art_ratings>=1) & (art_ratings<=5)] 
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然后 将 这 些 值 转换 为 字符 串 : 
# 将 值 转换 为 字符 囊 


art_ratings = art_ratings.astype (str) 


art_ratings.descripbe() 


count 2656 
unique 与 
top 4 
freq 1066 


Name: Q7A_ART, dtype: object 
现在 定 序数 据 的 格式 是 正确 的 ， 可 以 进行 可 视 化 : 
# 像 定 类 等 级 一 样 用 饼 图 


art_ratings.value_ counts() .plot (kind='pie') 


以 上 代码 的 结果 如 下 图 所 示 。 





Q7A_ART 














也 可 以 将 其 可 视 化 为 条 形 图 : 
# 像 定 类 等 级 一 样 用 条 形 图 


art_ratings.value_counts() .plot (kind='bar') 


以 上 代码 的 结果 如 下 图 所 示 。 
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此 外 ， 在 定 序 等 级 还 可 以 引入 箱 线 图 : 


# 定 序 等 级 也 可 以 画 箱 线 图 
art_ratings.value_counts() .plot (kind='box') 


以 上 代码 的 结果 如 下 图 所 示 。 
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不 可 能 将 之 前 的 Grade 列 画 成 箱 线 图 ， 因 为 找 不 到 中 位 数 。 


2.3.3” 定 距 等 级 

我 们 开始 加 大 火力 了 。 在 定 类 和 定 序 等 级 ,我们 一 直 在 处 理 定性 数据 。 即 使 其 内 容 是 数 ， 也 
不 代表 真实 的 数量 。 在 定 距 等 级 ,我 们 摆脱 了 这 个 限制 ,开始 研究 定量 数据 。 在 定 距 等 级 ,数值 
数据 不 仅 可 以 像 定 序 等 级 的 数据 一 样 排序 , 而 且 值 之 间 的 差异 也 有 意义 。 这 意味 着 , 在 定 距 等 级 ， 
我 们 不 仅 可 以 对 值 进行 排序 和 比较 ， 而 且 可 以 加 减 。 

例子 : 


定 距 等 级 的 一 个 经 典 例子 是 温度 。 如 果 美 国 得 克 萨 斯 州 的 温度 是 32'C ， 阿 拉 斯 加 州 的 温度 
是 4C， 那么 可 以 计算 出 32-4=28C 的 温差 。 这 个 例子 看 上 去 简单 ， 但 是 回首 之 前 的 两 个 等 级 ， 
我 们 从 未 对 数据 执行 过 这 种 操作 。 

反例 : 

一 个 经 典 的 反例 是 李 克 特 量 表 。 因 为 可 以 排序 ,所 以 我 们 把 李 克 特 量 表 归 为 定 序 等 级 。 但 是 
需要 注意 的 是 ， 对 其 做 减法 并 没有 意义 。 如 果 在 李 克 特 量 表 上 将 $ 减 去 3， 得 出 的 结果 2 既 不 代 
表 数 字 2， 也 不 代表 2 这 个 类 别 。 因 此 ， 李 克 特 量 表 的 减法 很 困难 。 

可 以 执行 的 数学 操作 

请 记 住 ,在 定 距 等 级 上 可 以 进行 加 减 ， 这 改变 了 整个 游戏 规则 。 既 然 可 以 把 值 加 在 一 起 ， 就 
能 引入 两 个 熟悉 的 概念 : 算术 平均 数 ( 就 是 均值 ) 和 标准 差 。 为 了 举例 说 明 ， 我们 引入 一 个 新 的 
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数据 集 ， 它 是 关于 气候 变化 的 : 
# 加 载 数据 集 
Climate = pd.read csv('../data/GlobalLandTemperaturesByCity.csv') 
climate.head() 


为 了 更 好 地 理解 ， 我 们 看 一 下 这 个 表格 。 











dt AverageTemperature AverageTemperatureUncertainty City Country Latitude Longitude 
0 1743-11-01 6.068 1.737 Arhus Denmark 57.05N 10.33E 
1 1743-12-01 NaN NaN Arhus Denmark 57.05N 10.33E 
2 1744-01-01 NaN NaN Arhus Denmark 57.05N 10.33E 
3 1744-02-01 NaN NaN Arhus Denmark 57.05N 10.33E 
4 1744-03-01 NaN NaN Arhus Denmark 57.05N 10.33E 





这 个 数据 集 有 860 万 行 ， 每 行 代表 某 个 城市 某 月 的 平均 温度 ， 上 淹 到 18 世纪 。 请 注意 ， 只 
看 前 5 行 ， 我 们 已 经 可 以 注意 到 有 数据 缺失 了 。 把 这 些 数据 删除 ， 美 化 一 下 结 


# 移 除 缺 失 值 


climate.dropna (axis=0, inplace=True) 








climate.head() # 检查 是 否 已 移 除 干净 





看 下 表 会 更 容易 理解 。 
dt AverageTemperature AverageTemperatureUncertainty City Country Latitude Longitude 

0 1743-11-01 6.068 1.737 Arhus Denmark 57.05N 10.33E 
5 1744-04-01 5.788 3.624 Arhus Denmark 57.05N 10.33E 
6 1744-05-01 10.644 1.283 Arhus Denmark 57.05N 10.33E 
7 1744-06-01 14.051 1.347 Arhus Denmark 57.05N 10.33E 
8 1744-07-01 16.082 1.396 Arhus Denmark 57.05N 10.33E 

用 这 行 代码 检查 缺失 值 : 

climate.isnull().sum() 

dt 0 

AverageTemperature 0 

AverageTemperatureUncertainty 0 

City 0 

Country 0 

Latitude 0 

Longitude 0 


dtype: int64 

# 没有 问题 

我 们 关注 的 是 AverageTemperature (平均 温度 ) 列 。 温 度数 据 属于 定 距 等 级 ， 这 里 不 能 
使 用 条 形 图 或 饼 图 进行 可 视 化 ， 因 为 值 太 多 了 : 
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# 显示 独特 值 的 数量 


climate['AverageTemperature'] .nunique() 

111994 

对 111 994 个 值 绘图 非常 奇怪 ， 当 然 也 没有 必要 ， 因 为 我 们 知道 这 些 数 是 定量 的 。 从 这 个 级 
别 开 始 ， 最 常用 的 图 是 直方 图 。 直 方 图 是 条 形 图 的 “近亲 ”， 用 不 同 的 桶 包含 不 同 的 数据 ， 对 数 
据 的 频率 进行 可 视 化 。 

对 世界 平均 温度 画 一 个 直方 图 ， 从 整体 的 角度 看 温度 分 布 : 

climate['AverageTemperature'] .hist() 


以 上 代码 的 结果 如 下 图 所 示 。 
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可 以 看 到 ,平均 温度 约 为 20'C。 下 面 确认 一 下 : 


climate['AverageTemperature'] .describe() 


Count 8.235082e+06 
mean 1.672743e+01 
std 1.035344e+01 
min -4.270400e+01 
25% 1.029900e+01 
50% 1.883100e+01 
75% 2.521000e+01 
max 3.965100e+01 


Name: AverageTemperature, dtype: float64 


很 接近 , 均值 大 概 是 17'C。 我 们 继续 处 理 数据 加 入 year (年 ) 和 century (世纪 ) 两 列 ， 
只 观察 美国 的 数据 : 
# 将 dt 栏 转换 为 日 期 ， 取 年 份 





climate['dt'] = pd.to_ datetime(climate['dt']) 
climate['year'] = climate['dt'] .map(lambda value: value.year) 
# 只 看 美国 


climate_sub_us = climate.loc[climate['Country'] == 'United States'] 
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climate_sub us['century'] = climate_ sub us['year'] .map (lambda x: int (x/100+1)) 
# 1983 变 成 20 
# 1750 变 成 18 


我 们 用 新 的 century 列 ， 对 每 个 世纪 夯 直 方 图 : 


climate_sub us['AverageTemperature'] .hist (by=climate_ sub us['century'], 
sharex=True, sharey=True, 

figsize=(10, 10), 

bins=20) 


以 上 代码 的 结果 如 下 图 所 示 。 
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这 4 幅 直 方 图 显示 AverageTemperature 随时 间 略 微 上 升 。 确 认 一 下 : 


climate_supb_us.groupby ('century') ['AverageTempetrature'] .mean() .plot (kind='line') 


以 上 代码 的 结果 如 下 图 所 示 。 
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有 意思 ! 因为 差 值 在 这 个 等 级 是 有 意义 的 ， 所 以 我 们 可 以 回答 美国 从 18 世纪 至 今 平均 温度 
上 升 多 少 这 个 问题 。 先 把 随 世 纪 变 化 的 温度 数据 存储 到 Pandas 的 Series 对 象 中 : 


century_changes = 
climate_sub us.groupby ('century')['AverageTemperature'] .mean () 

















century_changes 


century 

18 12.073243 

19 13.662870 

20 14.386622 

21 L5197692 

Name: AverageTemperature, dtype: float64 


现在 可 以 对 这 个 Series 进行 切片 ， 用 21 世纪 的 数据 减 去 18 世纪 的 数据 ， 得 到 温差 ; 
# 21 世纪 的 平均 温度 减 去 18 世纪 的 平均 温度 


century_changes[21] - century_changes[18] 


# 均值 是 21 世纪 的 月 平均 温度 减 去 18 世纪 的 月 平均 温度 
3.124449115460754 


@ 在 定 距 等 级 绘制 两 列 数据 


定 距 及 更 高 等 级 的 一 大 好 处 是 , 我 们 可 以 使 用 散 点 图 : 在 两 个 轴 上 绘制 两 列 数据 ,将 数据 点 
可 视 化 为 图 像 中 真正 的 点 。 在 气候 变化 数据 集中 ，year 和 averageTemperature 列 都 属于 定 
距 等 级 , 因为 它们 的 差 值 是 有 意义 的 。 因此 可 以 对 美国 每 月 的 温度 绘制 散 点 图 , 其 中 x 轴 是 年 份 ， 
y 轴 是 温度 。 我 们 希望 可 以 看 见 之 前 折线 图 表示 的 升温 趋势 . 

X = climate_sub_us['year'] 

y = climate_sub us['AverageTemperature'] 

fig, ax = plt.subplots (figsize=(10,5)) 


ax.scatter (x, y) 
plt.show!() 


以 上 代码 的 结果 如 下 图 所 示 。 
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好 像 不 怎么 好 看 。 和 预期 一 样 ， 里 面 有 很 多 噪声 。 考 虑 到 每 年 每 个 城镇 都 会 报告 好 几 个 平均 





气温 ， 在 图 上 每 年 有 很 多 点 也 是 理 所 应 当 的 。 
我 们 用 grouppy 清除 年 份 的 大 部 分 噪声 : 


# 用 groupby 清除 美国 气温 的 唆 声 


climate_sub _ us.groupby ('year') .mean()['AverageTemperature'] .plot() 


以 上 代码 的 结果 如 下 图 所 示 。 
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好 多 了 ! 可 以 看 出 气温 随 年 份 上 升 的 趋势 , 但 是 可 以 再 用 滑动 均值 (rolling mean ) 平 滑 一 下 : 


# 用 滑动 均值 平滑 图 像 





climate_sub us.groupby ('year') .mean()['AverageTemperature'] .rolling(10) .mean() .plot() 


以 上 代码 的 结果 如 下 图 所 示 。 
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我 们 在 定 距 等 级 同时 绘制 两 列 数据 , 重新 确认 了 之 前 用 折线 图 表示 的 内 容 : 美国 的 平均 气温 


总 体 的 确 有 上 升 的 趋势 。 

















数据 的 定 距 等 级 为 我 们 提供 了 全 新 的 理解 方式 ， 但 是 还 没有 结束 。 
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2.3.4” 定 比 等 级 


最 终 , 我 们 到 达 了 最 高 的 等 级 : 定 比 等 级 。 在 这 个 等 级 上 ， 可 以 说 我 们 拥有 最 高 程度 的 控制 
和 数学 运算 能 力 。 和 定 距 等 级 一 样 ,我 们 在 定 比 等 级 上 处 理 的 也 是 定量 数据 。 这 里 不 仅 继承 了 定 
距 等 级 的 加 减 运算 ， 而 且 有 了 一 个 绝对 零点 的 概念 ， 可 以 做 乘除 运算 。 


可 以 执行 的 数学 操作 


在 定 比 等 级 , 我们 可 以 进行 乘除 运算 。 虽 然 看 起 来 没什么 大 不 了 , 但 是 这 些 运算 可 以 让 我 们 
对 这 个 等 级 上 的 数据 进行 独特 的 观察 ， 而 这 在 低 等 级 上 是 无 法 做 到 的 。 我 们 先 看 几 个 例子 ， 了 解 
一 下 这 意味 着 什么 。 


例子 : 


当 处 理 金融 数据 时 , 我 们 几乎 肯定 要 计算 一 些 货币 的 值 。 货币 处 于 定 比 等 级 , 因为 “ 零 资 金 ” 
这 个 概念 可 以 存在 。 那 么 我 们 就 可 以 说 : 


口 $100 是 $50 的 两 倍 ， 因 为 100 150 = 2; 
口 10 mg 青霉素 是 20 mg 青霉素 的 一 半 ， 因 为 10 /20=0.5。 


因为 存在 0 这 个 概念 ， 所 以 这 种 比较 是 有 意义 的 。 
反例 : 


我 们 一 般 认 为 , 温度 属于 定 距 等 级 ,而 不 是 定 比 等 级 ,因为 100C 比 50C 高 两 倍 这 种 说 法 没 
有 意义 ， 并 不 合理 。 温 度 是 主观 的 ， 不 是 客观 正确 的 。 
























































有 人 会 说 摄氏 度 和 华氏 度 都 有 一 个 起 始点 ， 因 为 这 两 个 单位 都 可 以 转换 为 开 尔 
0 文 ， 而 开尔文 有 零点 。 实 际 上 ,摄氏 度 和 华氏 度 都 允许 负 值 存在 ， 但 是 开尔文 不 
允许 。 因 此 ， 摄氏度 和 华氏 度 都 没有 真正 的 零点 ， 但 是 开尔文 有 。 


回 到 旧金山 的 工资 数据 ， 可 以 看 到 Biweekly High Rate 列 处 于 定 比 等 级 ， 因 而 可 以 进行 
新 的 观察 。 先 看 一 下 最 高 的 工资 : 


# 哪个 工作 种 类 的 工资 最 高 

# 每 个 工作 种 类 的 平均 工资 是 多 少 

fig = plLt.figure(figsize=(15,5)) 
ax = fig.gcal() 


salary_ranges.groupby ('Grade') [['Biweekly High Rate']] .mean().sort values( 
'Biweekly High Rate', ascending=False) .head(20) .plot.bar (stacked=False, ax=ax, 

color='darkorange') 

ax.set_ titlel('Top 20 Grade by Mean Biweekly High Rate') 


以 上 代码 的 结果 如 下 图 所 示 。 
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如 果 看 一 下 旧金山 的 最 高 工资 记录 : 


http://sfdhr.org/sites/default/files/documents/Classification-and-Compensation/Archives/Compensation- 
Manual-FY09-10.pdf ? 


会 发 现 ， 工资 最 高 的 是 公共 交通 部 总 经 理 ( General Manager Public Transportation Dept. )。 我 们 用 
同样 的 办 法 查看 工交 最 低 的 工作 : 


# 哪个 工作 种 类 的 工资 最 低 
fig = plt.figure (figsize=(15,5)) 
ax = fig.gcal() 


salary_ranges.groupby ('Grade') [['Biweekly High Rate']] .mean().sort values!( 
'Biweekly High Rate', ascending=False) .tail(20) .plot.bar (stacked=False, ax=ax, 

color='darkorange') 

ax.set_title('Bottom 20 Grade by Mean Biweekly High Rate') 


以 上 代码 的 结果 如 下 图 所 示 。 
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中 感谢 旧金山 政府 人 力 资源 部 的 HR 分 析 师 Eliot Watt 对 链接 修正 提供 的 帮助 


38 第 2 章 特征 理解 : 我 的 数据 集 里 有 什么 








对 照 可 知 ， 工 资 最 低 的 是 集会 助理 ( Camp Assistant )。 


因为 金钱 处 于 定 比 等 级 ， 所 以 可 以 计算 最 高 工资 和 最 低 工资 的 比值 : 


sorted_df = salary_ranges.groupby ('Grade') [['Biweekly High Rate']] .mean().sort_values( 
'Biweekly High Rate', ascending=False) 
sorted_df.iloc[0] [0] / sorted df.iloc[-1][0] 








13:.931919540229886 


工资 最 高 的 员工 比 工资 最 低 的 员工 多 赚 近 13 倍 。 多 亏 了 定 比 等 级 , 我 们 才能 知道 这 件 事 情 ! 


2.4 数据 等 级 总 结 


理解 数据 的 不 同等 级 对 于 特征 工程 是 非常 必要 的 。 当 需要 构建 新 特征 或 修复 旧 特 征 时 , 我 们 
必须 有 办 法 确定 如 何 处 理 每 一 列 。 


下 表 言 简 意 凡 地 总 结 了 每 个 等 级 上 可 行 与 不 可 行 的 操作 。 































































































等 级 属 性 例 子 描述 性 统计 表 
定 类 ”离散 二 元 响应 ( 真 或 假 ) 频率 / 占 比 条 形 图 
无 序 人 名 众 数 饼 图 
油漆 颜色 
定 序 “有 序 类 别 李 克 特 量 表 频率 条 形 图 
比较 考试 等 级 众 数 饼 图 
中 位 数 茎 叶 图 
百 分 位 数 
定 距 ” 数字 差别 有 意义 摄氏 度 / 华 氏 度 频率 条 形 图 
某 些 特殊 的 李 克 特 量 表 众 数 饼 图 
中 位 数 茎 叶 图 
均值 箱 线 图 
标准 差 直方 图 
定 比 ”连续 金钱 均值 直方 图 
存在 有 意义 的 绝对 零点 , 可 以 做 除法 (例如 ， 重量 标准 差 箱 线 图 
$100 是 $50 的 两 倍 ) 

















下 表 展 示 了 每 个 等 级 上 可 行 与 不 可 行 的 统计 类 型 。 
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统 计 量 定 类 定 序 定 距 定 比 
众 数 1 1 1 有 时 可 行 
中 位 数 X y y y 
差 值 、 最 小 值 、 最 大 值 x y y y 
均值 x x y y 
标准 差 x x y y 

最 后 这 张 表 显示 了 每 个 等 级 上 可 以 或 不 可 以 绘制 的 图 表 。 
表 定 类 定 序 定 距 定 比 

条 形 图 / 饼 图 y y 有 时 可 以 x 

茎 叶 网 x y y y 

箱 线 图 x y y y 

和 方 图 x x 有 时 可 以 y 



































当 你 拿 到 一 个 新 的 数据 集 时 ， 下 面 是 基本 的 工作 流程 。 


(1) 数据 有 没有 组 织 ? 数据 是 以 表格 形式 存在 、 有 不 同 的 行列 ， 还 是 以 非 结 构 化 的 文本 格式 
存在 ? 

(2) 每 列 的 数据 是 定量 的 还 是 定性 的 ? 单元 格 中 的 数 代表 的 是 数值 还 是 字符 串 ? 

(3) 每 列 处 于 哪个 等 级 ?是 定 类 、 定 序 、 定 距 ， 还 是 定 比 ? 

(4) 我 可 以 用 什么 图 表 ? 条 形 图 、 饼 图 、 葵 叶 图 、 箱 线 图 、 直 方 图 ， 还 是 其 他 ? 


下 图 是 对 以 上 逻辑 的 可 视 化 。 
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2.5 小结 











了 解 我 们 要 处 理 的 特征 是 特征 工程 的 基 而 


1。 如 果 不 到 


E 解 拿 到 的 数据 ， 就 不 可 能 修复 、 创 建 和 








利用 特征 , 不 可 能 创建 性 能 良好 的 机 器 学 习 流 水 线 。 本 章 中 , 我 们 可 以 在 数据 集中 识别 并 提取 不 
同等 级 的 数据 ， 并 用 这 些 信 息 创 造 有 用 、 有 意义 的 可 视 化 图 表 ， 帮 助 我 们 进一步 理解 数据 。 


在 下 一 章 中 , 我 们 会 利用 有 关 数 据 等 级 的 新 知识 来 改进 特征 ,并 使 用 机 器 学 习 有 效 地 衡量 特 








征 工程 流水 线 的 效果 。 








特征 增强 清洗 数据 








在 之 前 的 两 章 中 , 我 们 从 对 特征 工程 的 基本 理解 讲 起 , 逐步 介绍 了 如 何 使 用 特征 工程 优化 机 Ey 
器 学 习 流水 线 ， 对 数据 集 进行 实际 操作 ， 以 及 评估 和 理解 实际 应 用 中 出 现 的 不 同 数据 类 型 。 


本 音 将 使 用 之 前 学 到 的 知识 , 并 且 开始 进一步 修改 我 们 的 数据 集 。 具 体 来 说 ,我 们 将 开始 清 
洗 和 增强 数据 : 前 者 是 指 调整 已 有 的 列 和 行 , 后 者 则 是 指 在 数据 集中 删除 和 添加 新 的 列 。 和 以 往 
一 样 ， 所 有 这 些 操作 的 目标 都 是 优化 机 器 学 习 流水 线 。 


在 接 下 来 的 儿童 中 ,我们 将 : 


口 识别 数据 中 的 缺失 值 ; 

口 删除 有 害 数 据 ; 

口 输入 (填充 ) 缺失 值 ; 

口 对 数据 进行 归 一 化 /标准 化 ; 

口 构建 新 特征 ; 

口 手动 或 自动 选择 〈 移 除 ) 特征 ; 
口 使 用 数学 矩阵 计算 将 数据 集 转换 到 不 同 的 维度 。 


这 些 方法 会 帮助 我 们 更 好 地 了 解数 据 中 的 哪些 特征 更 重要 。 本 章 将 深入 讨论 前 4 种 方法 , 后 
3 种 方法 留 到 之 后 章节 中 讨论 。 






































3.1 识别 数据 中 的 缺失 值 


特征 增强 的 第 一 种 方法 是 识别 数据 的 缺失 值 , 这 可 以 让 我 们 更 好 地 明白 如 何 使 用 真实 世界 中 
的 数据 。 通 常 ， 数 据 集会 因为 各 种 原因 有 所 缺失 ,例如 调查 时 没有 记录 某 些 观察 值 等 。 分 析 数 据 
并 了 解 缺 失 的 数据 是 什么 至 关 重 要 ,， 这样 才 可 以 决定 下 一 步 如 何 处 理 这 些 缺 失 值 。 首 先 , 我们 深 
入 了 解 一 下 本 章 要 使 用 的 数据 集 一 一 皮 马 印第安 人 糖尿 病 预测 数据 集 。 
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3.1.1 皮 马 印第安 人 糖尿 病 预测 数据 集 


此 数据 集 来 自 UCI 机 器 学 习 网 站 ， 可 以 在 本 书 源 代码 文件 中 找到 ( data/pima.data )。 先 来 了 
解 一 下 这 个 公开 数据 集 : 数据 有 9 列 ， 共 768 个 数据 点 ( 行 )。 这 个 数据 集 希 望 通过 体检 结果 细 








节 ， 预 测 21 岁 以 上 的 女性 皮 马 印第安 人 5 年 内 是 否 会 患 糖尿 病 。 














这 个 数据 集 和 机 带 学 习 的 二 分 类 ( 两 个 类 别 ) 问题 相对 应 。 意 思 是 ,我 们 希望 知道 ， 这 个 人 





5 年 内 会 不 会 得 糖尿 病 ? 数据 每 列 的 含义 〈 按 顺序 ) 如 下 : 


(1) 怀孕 次 数 ; 

(2) 口服 葡萄 糖 耐量 试验 中 的 2 小 时 血浆 葡萄 糖 浓 度 ; 

(3) 舒张 压 (mmHeg ); 

(4) 三 头 肌 皮 裙 厚度 (mm ); 

(5) 2 小 时 血清 胰岛 素 浓 度 (RU/ml ); 

(6) 体重 指数 [ BMI， 即 体重 (kg ) 除 以 身高 (m ) 的 平方 ] 
(7) 糖尿 病 家 族 函 数 ; 

(8) 年 龄 ( 岁 ); 

(9) 类 变量 (0 或 1， 代表 无 或 有 糖尿 病 )。 























对 于 这 个 数据 集 , 我 们 的 目标 是 向 机 器 学 习 函 数 输入 8 个 特征 值 , 来 预测 最 后 一 列 类 变量 的 











值 ， 即 此 人 是 否 患 有 糖尿 病 。 
采用 这 个 数据 集 有 两 点 很 重要 的 原因 : 
口 我 们 必须 应 对 缺失 值 ; 
口 所 有 特征 都 是 定量 的 。 
对 于 本 章 而 言 第 一 点 更 有 价值 ， 因 为 我 们 的 目的 就 是 研究 缺失 值 。 本 章 只 处 理 定量 特 
为 目前 没有 足够 的 工具 处 理 缺 失 的 定性 特征 。 下 一 章 会 研究 特征 构建 ， 解 决 这 个 问题 。 


3.1.2 ”探索 性 数据 分 析 























征 ， 


首先 进行 探索 性 数据 分 析 (EDA ，exploratory data analysis ) 来 识别 缺失 的 值 。 我 们 会 使 用 
Pandas 和 NumpPy 这 两 个 得 力 的 Python 包 来 存储 数据 并 进行 一 些 简单 的 计算 , 还 会 使 用 流行 的 可 








视 化 工具 来 观察 数据 的 分 布 情况 。 开 始 写 一 点 代码 吧 。 首 先导 入 所 需 的 包 : 


# 导入 探索 性 数据 分 析 所 需 的 包 

import pandas as ba # 存储 表格 数据 

import numpy as np # 数学 计算 包 

import matplotlib.pyplot as plt # 流行 的 数据 可 视 化 工具 
import seaborn as sns # 另 一 个 流行 的 数据 可 视 化 工具 
smatplotlib inline 

plt.style.use('fivethirtyeight') # 流行 的 数据 可 视 化 主题 
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可 以 这 样 从 CSV 中 导入 数据 : 
# 使 用 Pandas 导入 数据 
pima = pd.read csv('../data/pima.data') 


pima.head() 


使 用 head 方法 可 以 观察 数据 的 前 几 行 。 上 面 代码 的 输出 如 下 表 所 示 。 











以 月 





6 148 72 35 0 33.6 0.627 50 1 
0 1 85 66 29 0 26.6 0.351 31 0 
1 8 183 64 0 0 23.3 0.627 32 1 
2 1 89 66 23 94 28.1 0.167 21 0 
3 0 137 40 35 168 43.1 2.288 33 1 
4 3 116 74 0 0 25.6 0.201 30 0 


看 起 来 不 大 对 劲 : 表格 没有 列 名 。 源 数据 的 CSV 文件 肯定 没有 内 置 列 的 标题 。 
数据 源 网 站 的 信息 手动 添加 标题 ， 代 码 如 下 : 





pima_column names = ['times_pregnant', 'plasma_glucose concentration', 
'diastolic_ blood pressure', 'triceps_ thickness', 'serum insulin', 'bmi 
'pedigree_function', 'age', 'onset_ diabetes'] 

pima = pd.read csv('../data/pima.data', names=pima_column names) 
pima.head() 


再 次 使 用 head 方法 ， 各 个 列 的 标题 都 正确 了 。 上 面 代码 的 输出 如 下 表 所 示 。 


1 
’ 


没关系 ， 可 





times plasma glucose ”diastolic blood {triceps_ serum_ . Ppedigree_ 
, i bmi ， age onset diabetes 
pregnant concentration pressure thickness insulin function 
0 6 148 72 35 0 33.6 0.627 50 1 
1 1 85 66 29 0 26.6 0.351 31 0 
2 8 183 64 0 0 23.3 0.672 32. 1 
3 1 89 66 23 94 28.1 0.167 21 0 
4 0 137 40 35 168 43.1 2.288 33 1 


看 起 来 好 多 了 ， 可 以 用 列 名 做 一 些 基 本 的 统计 、 选 择 和 可 视 化 操作 。 先 算 一 下 空 准确 率 ”: 


pimal'onset_ diabetes'] .value_ counts (normalize=True) 


# 空 准 确 率 ，65g 的 人 没有 糖尿 病 


0 0.651042 
1 0.348958 
Name: onset_diabetes, dtype: float64 





Qz 空 准 确 率 是 指 当 模型 总 是 预测 频率 较 高 的 类 别 时 达到 的 正确 率 。 一 一 译 者 注 





mt 
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既然 终极 目标 是 研究 数据 的 规律 以 预测 是 否 会 患 糖尿 病 , 那么 可 以 对 糖尿 病 患者 和 健康 人 的 
区 别 进行 可 视 化。 和 希望 直方 图 可 以 显示 一 些 规律 ， 或 者 这 两 类 之 间 的 显著 差异 : 


# 对 plasma_glucose_concentration 列 绘制 两 类 的 直方 图 





col = 'plasma_glucose_concentration' 
plt.hist(pima[pima['onset_diabetes']==0] [col], 10, alpha=0.5, label='non-diabetes') 
plt.hist (pima[pima['onset_diabetes']==1] [col], 10, alpha=0.5, label='diabetes') 


plt.legend(loc='upper right') 

plt.xlabel (col) 

plt.ylabel ('Frequency') 
plt.title('Histogram of {}'.format (col)) 
plt.show!() 


上 面 代码 的 输出 如 下 图 所 示 。 
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看 起 来 患者 和 常人 的 血浆 葡萄 糖 浓度 (plasma_glucose_concentration ) 有 很 大 的 差异 。 
我 们 继续 按 此 绘制 其 他 列 的 直方 图 : 








for col in ['bmi', 'diastolic blood pressure', 'plasma_ glucose concentration']: 
plt.hist (pima[pima['onset_diabetes']==0] [col], 10, alpha=0.5, 
label='non-diabetes') 
plt.hist(pima[lpima[l'onset_diabetes']==1] [col], 10, alpha=0.5, label='diabetes') 
plt.legend(loc='upper right') 
plt.xlabel (col) 
plt.ylabel ('Frequency') 
plt.title('Histogram of {}'.format (col)) 
plt.show!() 





上 面 的 代码 会 输出 3 张 直方 图 。 第 一 张 直方 图 是 两 类 ( 正常 人 和 患者 ) 的 身体 质量 指数 ( BMI， 
body mass index ) 分 布 : 
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Histogram of bmi 
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下 一 张 直方 图 也 表明 两 类 人 有 显著 区 别 ， 这 次 是 在 舒张 压 方面 : 
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最 后 的 直方 图 是 血浆 葡萄 糖 浓度 方面 的 区 别 : 
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观察 几 张 直方 图 后 ， 可 以 看 出 两 类 人 存在 明显 区 别 。 例如， 对 于 最 终 患 有 糖尿 病 的 患者 ， 其 
血浆 葡萄 糖 浓度 会 有 很 大 的 增长 。 我 们 可 以 用 线性 相关 矩阵 来 量化 这 些 变量 间 的 关系 。 用 本 章 一 
开始 导入 的 Seaborn 作为 可 视 化 工具 : 
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中 


# 数据 集 相 关 矩 阵 的 热力 图 
sns.heatmap (pima.corr()) 
# plasma_glucose_concentration 很 明显 是 重要 的 变量 


下 图 是 数据 集 的 相关 移 阵 ， 显 示 了 皮 马 人 数据 集中 不 同 列 的 相关 性 。 输 出 如 下 图 所 示 。 
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相关 和 矩阵 显示 ,plasma_oglucose_concentration( 血浆 葡萄 糖 浓度 ) 和 onset_aqiabetes 





pima.corr()['onset_diabetes'] 
# plasma_glucose_concentration 很 明显 是 好 


times_pregnant 


plasma_glucose concentration 
diastolic_ blood pressure 


triceps_thickness 
serum_ insulin 

bmi 
pedigree_function 
age 
onset_diabetes 
Name: 


onset_diabetes, 


人 


Ei 
dtype: 





.221898 
.466581 
.065068 
.074752 
.130548 
.292695 
.173844 
238356 


000000 


float64 


本 要 的 变量 


尿 病 ) 有 很 强 的 相关 性 。 我 们 进一步 研究 onset_dqiabetes 列 的 相关 性 数值 : 
# 相关 和 纶 阵 





第 4 章 会 进一步 研究 相关 性 的 各 种 功能 ， 而 目前 探索 性 数据 分 析 提 示 ， Dllasma glucose 





内 置 的 isnul1l () 方 法 : 


Dima.isnull() .sum() 


times_pregnant 





ncentration 是 预测 糖 


ll 尿 病 的 重要 变量 。 








下 一 步 更 重要 : 我 们 要 看 看 数据 集中 是 否 有 数据 点 是 空 的 (缺失 值 )。 用 Pandas DataFrame 





3.1 


识别 数据 中 的 缺失 值 
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plasma_glucose_concentration 
diastolic_blood pressure 


triceps_thickness 
serum insulin 


bmi 


pedigree_function 


age 


onset_diabetes 
dtype: int64 


很 好 ! 数据 中 没有 缺失 值 。 继 续 探索 数据 ， 首 先 用 shape 方法 看 看 数据 的 行 数 和 列 数 : 


pima.shape # ( 行 数 ， 列 数 ) 


(768, 9) 


我 们 确定 数据 有 9 列 ( 包括 要 预测 的 变量 ) 和 768 个 观察 值 ( 行 ) 用 下 面 的 代码 看 看 糖尿 


病 的 发 病 率 : 


pimal'onset_ diabetes'] .value_ counts (normalize=True) 


和 


# 空 准 确 率 ，65g 的 人 没有 糖尿 病 


0 0.651042 
lI 0.348958 
Name: onset_diabetes, dt 


ype: float64 








出 





65% 的 人 没有 糖尿 病 ，35% 的 人 有 糖尿 病 。DataFrame 内 置 的 descripe 方法 可 以 提供 数据 
基本 的 描述 性 统计 





pima.describe() # 基本 的 描述 性 统计 
输出 如 下 表 所 示 。 
times_pregnant plasma_glucose_ diastolic_ triceps_ serum_ bmi pedig ree_ age onset_ 
concentration blood_pressure thickness insulin function diabetes 

count 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 
mean 3.845052 120.894531 69.105469 20.536458 79.799479 31.992578 0.471876 33.240885 0.348958 
std 3.369578 31.972618 19.355807 15.952218 115.244002 7.884160 0.331329 11.760232 0.476951 
min 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.078000 21.000000 0.000000 
25% 1.000000 99.000000 62.000000 0.000000 0.000000 27.300000 0.243750 24.000000 0.000000 
50% 3.000000 117.000000 72.000000 23.000000 30.500000 32.000000 0.372500 29.000000 0.000000 
75% 6.000000 140.250000 80.000000 32.000000 127.250000 36.600000 0.626250 41.000000 1.000000 
max 17.000000 199.000000 122.000000 99.000000 846.000000 67.100000 2.420000 81.000000 1.000000 


表格 里 有 基本 的 统计 量 ， 例 如 均值 、 标 准 差 ， 以 及 一 些 百 分 位 数据 。 但 是 ， 请 注意 : BMI 




















的 最 小 值 是 0。 这 是 有 悖 医学 常 


Ty 


继续 观察 ， 





D times_pregnant 


识 的 ， 肯 定 事 出 有 因 。 也 许 数据 中 缺失 或 不 存在 的 点 都 用 0 填充 
我 们 发 现 以 下 列 的 最 小 值 都 是 0: 























D plasma_glucose_concentration 


DQ diastolic blood pressure 
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口 triceps_thickness 
口 serum insulin 
口 pbmi 


DQ onset_ diabetes 


因为 onset_qdiabetes 中 的 0 代表 没有 糖尿 病 ， 人 也 可 以 怀孕 0 次 ， 所 以 可 以 得 出 结论 ， 
下 面 这 些 列 中 的 缺失 值 用 0 填充 了 : 











D plasma_glucose concentration 
DQ diastolic blood pressure 

DQ triceps_thickness 

口 serum insulin 


口 pbmi 


数据 中 还 是 存在 缺失 值 的 ! 我 们 已 经 知道 缺失 的 数据 用 0 填充 过 了 ， 真 不 走运 。 作 为 数据 科 
学 家 ， 你 必须 时 刻 保持 警惕 ， 尽 可 能 地 了 解数 据 集 ， 以 便 找 到 使 用 其 他 符号 填充 的 缺失 数据 。 务 
必 阅 读 公开 数据 集 的 所 有 文档 ， 里 面 有 可 能 提 到 了 缺失 数据 的 问题 。 

如 果 数 据 集 没 有 文档 ， 缺 失 值 的 常见 填充 方法 有 : 
口 0( 数 值 型 ) 
口 unknown 或 Unknown (类 别 型 ) 
口 ? (类 别 型 ) 


我 们 知道 数据 集中 有 5 列 存在 缺失 值 ， 现 在 就 开始 深入 研究 如 何 解 决 这 个 问题 。 
































3.2 ”处 理 数 据 集 中 的 缺失 值 


在 处 理 数据 时 , 数据 科学 家 遇 到 的 最 常见 问题 之 一 就 是 存在 缺失 值 。 最 常见 的 情况 是 某 个 单 
元 格 (行列 交叉 点 ) 是 空白 的 , 数据 出 于 某 种 原因 没有 被 收集 到 。 缺 失 值 会 引发 很 多 问题 ,最 重 
要 的 是 ， 大 部 分 (不 是 全 部 的 ) 学 习 算 法 不 能 处 理 缺 失 值 。 


因此 ,数据 科学 家 和 机 器 学 习 工程 师 有 很 多 处 理 缺 失 值 的 办 法 和 技巧 。 虽 然 办 法 有 很 多 变种 ， 
但 是 两 个 最 主要 的 处 理 方法 是 : 


口 删除 缺少 值 的 行 ; 
D 填充 缺失 值 。 


这 两 种 办 法 都 会 清洗 我 们 的 数据 集 ， 让 算法 可 以 处 理 ， 但 是 每 种 办 法 都 各 有 优 缺 点 。 
在 进一步 处 理 前 , 先 用 Python 中 的 None 填 充 所 有 的 数字 0, 这 样 Pandas 的 fillna 和 dropna 
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方法 就 可 以 正常 工作 了 。 我 们 可 以 手动 将 每 列 的 0 蔡 换 成 None， 方 法 如 下 : 
# 被 错误 填充 的 缺 拓 值 是 0 








pima[l'serum insulin'] .isnull().sum() 

0 

pimal'serum insulin'] = pima['serum insulin'] .map (lambda x:x if x != 0 else None) 
用 None 手动 替换 0 

pima[l'serum insulin'] .isnull().sum() 
检查 缺失 值 数量 

374 


既 可 以 手动 一 列 列 地 操作 ， 也 可 以 用 for 循环 和 内 置 的 replace 方法 加 速 ， 代 码 如 下 : 
直接 对 所 有 列 操作 ， 快 一 些 











columns = ['serum insulin', 'bmi', 'plasma_glucose_ concentration', 
'diastolic_ blood pressure', 'triceps_thickness'] 


for col in columns: 
pimalcol] .replace({[0], [None], inplace=True) 


如 果 现 在 用 isnul1 方法 计算 缺失 值 的 数量 ， 应 该 可 以 看 见 正 确 的 结果 : 


pima.isnull().sum() # 现在 有 意义 多 了 











times_pregnant 0 
plasma_glucose_concentration 5 
diastolic_blood pressure 39 
triceps_thickness 2.27 
serum insulin 3 六 
lomi 11 
pedigree_function 0 
age 0 
onset_diabetes 0 


dtype: int64 


pima.head() 


现在 数据 的 前 几 行 应 该 如 下 表 所 示 。 








times_ plasma_glucose 


,~ 一 diastolic_blood_pressure triceps thickness serum insulin bmi pedigree function age onset diabetes 
pregnant concentration 





0 6 148 了 NaN 33.6 0.627 50 1 
1 1 85 66 她 NaN 26.6 0Q.351 3 0 
2 8 183 64 None NaN 六 0.672 32 1 
2 1 89 66 23 NaN 28.1 0.167 21 0 
4 0 137 40 35 NaN 43.1 2.288 1 
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现在 数据 有 意义 多 了 。 我 们 可 以 看 见 其 中 $ 列 有 缺失 值 ， 缺 失 程度 有 所 不 同 。 有 些 列 ， 例 如 
plasma_glucose_concentration 只 缺少 5 个 值 ,但 是 serum_insulin 差不多 一 半 的 值 都 是 


缺失 的 。 


我 们 已 经 将 缺失 值 正确 插入 了 数据 集 , 缺失 数据 不 再 是 原来 的 占 位 符 0。 这 样 探索 性 数据 分 
析 也 会 更 准确 : 


pima.describe() # 进行 一 些 描 述 性 统计 


以 上 代码 的 输出 如 下 表 所 示 。 














times_pregnant serum_insulin pedigree_function age onset_diabetes 
count 768.000000 394.000000 768.000000 768.000000 768.000000 
mean 3.845052 155.548223 0.471876 33.240885 0.348958 
std 3.369578 118.775855 0.331329 11.760232 0.476951 
min 0.000000 14.000000 0.078000 21.000000 0.000000 
25% 1.000000 76.250000 0.243750 24.000000 0.000000 
50% 3.000000 125.000000 0.372500 29.000000 0.000000 
75% 6.000000 190.000000 0.626250 41.000000 1.000000 
max 17.000000 846.000000 2.420000 81.000000 1.000000 


注意 describe 方法 不 包括 有 缺失 值 的 列 。 尽 管 不 理想 ,但 还 是 可 以 对 某 些 列 取 均值 和 标 
准 差 : 
pima[l'plasma_glucose concentration'] .mean(), pima[l'plasma_glucose concentration'].std!() 


(121.6867627785059, 30.53564107280403) 


现在 开始 介绍 两 种 处 理 缺失 值 的 方式 。 





3.2.1 删除 有 害 的 行 


在 处 理 缺 失 数 据 的 两 种 办 法 中 , 最 常见 也 最 容易 的 方法 大 概 是 直接 删除 存在 缺失 值 的 行 。 通 
过 这 种 操作 ， 我 们 会 留 下 上 有 数据 的 完 数据 点 。 可 以 在 Pandas 中 利用 aropna 方法 获取 新 的 
DataFrame， 如 下 所 示 : 


# 删除 存在 缺失 值 的 行 


Dima_qropped = pima.dqropna() 


当然 ， 现 在 的 问题 是 我 们 丢失 了 一 些 行 。 用 下 面 的 代码 检查 删除 了 多 少 行 


num_ rows_lost = round(100* (Pima.shape[0] - pima_dropped.shape[0])/float (pima.shape[0])) 














print ("retained {}% of rows".format (num rows_lost)) 


# 大 部 分 行 都 对 了 


retained 49% of rows 
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我 们 丢失 了 原始 数据 集中 大 约 51% 的 行 ! 从 机 器 学 习 的 角度 考虑 , 尽管 数据 都 有 值 、 很 干净 ， 
但 是 我 们 没有 利用 尽 可 能 多 的 数据 , 忽略 了 一 半 以 上 的 观察 值 。 就 像 医生 在 研究 心脏 病 发 作 原 理 
时 ,忽略 了 一 半 以 上 的 患者 。 

下 面 对 数据 集 做 进一步 的 探索 性 数据 分 析 ， 比 较 一 下 丢弃 缺失 值 前 后 的 统计 数据 : 

# 丢弃 缺失 值 前 后 的 探索 性 数据 分 析 














# 分 成 True 和 False 两 组 
pimal'onset_ diabetes'] .value_ counts (normalize=True) 


0 0.651042 
下 0.348958 
Name: onset_diabetes, dtype: float64 


看 一 下 丢弃 数据 后 的 统计 数据 ， 如 下 面 代码 所 示 : 


pima_droppedl['onset_ diabetes'] .value_ counts (normalize=True) 





0 0.668367 
1 0.331633 
Name: onset_diabetes, dtype: float64 


# 前 后 的 True 和 False 比例 差不多 


在 大 刀 阔 佐 的 转换 后 ， 二 元 响应 看 起 来 没什么 变化 。 我 们 用 pima .mean 函数 比较 一 下 转换 
前 后 列 的 均值 ， 看 看 数据 的 形状 ， 结 果 如 下 : 








每 列 的 均值 (不 算 缺 失 值 ) 

pima.mean() 

times_pregnant 3.845052 
plasma_glucose_ concentration 121.686763 
diastolic_ blood pressure 72. 和 0.5.18 雪 
triceps_thickness 29:.153420 
serum_ insulin 155.548223 
lbbmi 32.457464 
pedigree_function 0.471876 
age 335240885 
onset_diabetes 0.348958 


dtype: float64 


用 pima_dropped.mean () 函数 同样 看 一 下 丢弃 缺失 值 后 的 统计 数据 ， 结 果 如 下 : 
# 每 列 的 均值 (删除 缺失 值 ) 


pima_dropped.mean() 





times_pregnant 3.301020 
plasma_glucose_concentration L222 O25DL 
diastolic_ blood pressure 70.663265 
triceps_thickness 29.145408 


serum_ insulin L560.56122 
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bmi 33.086224 
pedigree_function 0.523046 
age 30.864796 
onset_diabetes 0.331633 


dtype: float64 


为 了 更 好 地 了 解 这 些 数 的 变化 ,我 们 创建 一 个 新 图 表 , 将 每 列 均值 变化 的 百分比 可 视 化 。 首 
先 创建 一 个 表格 ， 列 出 每 列 均值 变化 的 百分比 ， 如 下 方 代码 所 示 : 


# 均值 变化 百分比 


(pima_dropped.mean() - pima.mean()) / pima.mean() 
times_pregnant -0.141489 
plasma_glucose_concentration 0.007731 
diastolic _ blood pressure -0.024058 
triceps_thickness -0.000275 
serum_ insulin 0.003265 
bmi 0.019372 
pedigree_function 0.108439 
age -0.071481 
onset_diabetes -0.049650 


dtype: float64 


现在 用 条 形 图 对 这 些 变 化 进行 可 视 化 : 


# 均值 变化 百分比 条 形 图 
ax = ((pima_ dropped.mean() - pima.mean()) / pima.mean()) .plot (kind='bar', title='% 
change in average column values') 

ax.set_ylabel('% change') 


以 上 代码 的 输出 如 下 图 所 示 。 
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可 以 看 到 ，times_pregnant (怀孕 次 数 ) 的 均值 在 删除 缺失 值 后 下 降 了 14%， 变 化 很 大 ! 
pedigree_function (糖尿 病 血 系 功 能 ) 也 上 升 了 11%， 也 是 个 飞跃 。 可 以 看 到 ， 删 除 行 〈 观 
察 值 ) 会 严重 影响 数据 的 形状 ， 所 以 应 该 保留 尽 可 能 多 的 数据 。 在 介绍 下 一 个 处 理 方法 前 ,我 们 
先进 行 一 些 机 需 学 习 。 


类 似 于 下 面 的 代码 块 ( 稍 后 会 一 行 行 地 讲解 ) 将 在 本 书 中 多 次 出 现 。 这 段 代码 基于 目前 的 特 
征 描 述 并 实现 了 机 带 学 习 在 多 个 参数 上 的 一 次 拟 合 ， 和 希望 取得 最 佳 模 型 : 


# 开始 机 器 学 习 





# 注意 使 用 删除 缺失 值 后 的 数据 


from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_ selection import GridqSearchCV 





X_dropped = pima_dropped.drop('onset diabetes', axis=1) 

# 删除 响应 变量 ， 建 立 特 征 和 矩阵 

print ("learning from {} rows".format (X_qroppedq.shape[0])) 
y_dropped = pima_droppedl['onset_diabetes'] 


# 网 格 搜索 所 需 的 变量 和 实例 


# 需要 试验 的 KNN 模型 参数 
knn _ params = {'n neighbors':[1, 2, 3, 4, 5, 6, 7]} 


knn = KNeighborsClassifier() # 设置 KNN 模型 


grid = GridSearchCV (knn, knn_params) 
grid.fit (xX_dropped, y_dropped) 


print (grid.best_score_, grid.best_ params_ ) 


# 但 是 我 们 只 学 习 了 很 少 的 行 


下 面 一 行 行 研究 。 首 先是 两 行 导 人 语句 : 


from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_ selection import GridSearchCyV 


我 们 会 使 用 scikit-learn 的 天 最 近邻 (KNN，Fnearest neighbor ) 分 类 模型 ， 以 及 一 个 网 格 搜 
索 模 块 。 这 个 模块 会 自动 找到 最 适合 我 们 模型 的 、 交 又 验 证 准确 率 最 好 的 KNN 参数 组 合 ( 暴力 
搜索 )。 接 下 来 ， 用 删除 缺失 值 后 的 数据 集 为 预测 模型 创建 一 个 X 和 一 个 y 变量 。 我 们 从 x ( 特 
征 和 矩阵 ) 开始 : 

x_dropped = pima_dropped.drop('onset_diabetes', axis=1) 


# 删除 响应 变量 ， 取 得 特征 矩阵 


print ("learning from {} rows" .format (X_qroppedq.shape[0])) 




















learning from 392 rows 
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现在 已 经 看 出 问题 了 : 机 顺 学 习 算法 使 用 的 数据 比 一 开始 拿 到 的 数据 少 得 多 。 然 后 创建 一 个 


Yy《(〈 响 应 变量 ): 


y_dropped = pima_ dropped['onset_ diabetes'] 


有 了 xX 和 y 变量 ， 就 可 以 为 网 格 搜索 创建 需要 的 参数 和 实例 了 。 为 了 简便 起 见 ， 我 们 将 





params ( 参数 ) 的 数量 设 成 7。 对 于 要 尝试 的 每 一 种 数据 清洗 和 特征 工程 方法 (删除 行 ， 填充 数 
据 )， 都 用 1 ~ 7 个 邻居 进行 拟 合 。 我 们 可 以 这 样 设置 模型 : 














# 开始 网 格 搜索 变量 
# KNN 参数 


knn_params = {'n neighbors':[1, 2, 3, 4, 5, 6, 7]} 


然后 实例 化 一 个 网 格 搜索 模块 ， 如 以 下 代码 所 示 ,， 并 用 特征 矩阵 和 响应 变量 进行 拟 合 。 拟 合 











， 代 码 会 打印 出 最 佳 准确 率 ， 以 及 相应 的 最 佳 参数 : 


knn = KNeighborsClassifier() # 设置 KNN 模型 


grid = GridSearchCV (knn, knn_params) 
grid.fit (x_dropped, y_dropped) 


print (grid.best_score_, grid.best params_) 
# 但 是 我 们 只 学 习 了 很 少 的 行 


0.7448979591836735 {'n_neighbors': 7} 


看 来 ,最 好 的 邻居 数 是 7 个 ， 此 时 KNN 模型 的 准确 率 是 74.5% ( 比 空 准确 率 65% 好 )。 但 是 














要 记 住 ， 这 个 模型 只 用 了 49% 的 数据 ， 如 果 能 用 到 所 有 数据 ， 会 不 会 更 好 一 些 ? 


这 是 我 们 在 本 书 中 第 一 次 接触 机 器 学 习 。 我 们 假设 读者 对 机 器 学 习 有 基本 的 认 
识 ， 并 且 了 解 基本 的 统计 过 程 ， 例 如 交叉 验证 。 


很 明显 ， 虽 然 删 除 脏 数 据 并 不 完全 是 特征 工程 , 但 这 种 操作 的 确 是 一 种 数据 清洗 技术 ， 有 助 











于 清洗 机 器 学 习 流 水 线 的 输入 。 接 下 来 尝试 一 个 稍 难 的 办 法 。 
3.2.2 ”填充 缺失 值 












































填充 数据 是 处 理 缺失 值 的 一 种 更 复杂 的 方法 。 填 充 指 的 是 利用 现 有 知识 数据 来 确定 缺失 的 数 











量 值 并 填充 的 行为 。 我 们 有 几 个 选择 ， 最 常见 的 是 用 此 列 其 余部 分 的 均值 填充 缺失 值 ， 如 下 所 示 : 





pima.isnull() .sum()  # 填充 血浆 列 


times_pregnant 0 
plasma_ glucose concentration 5 
diastolic_ blood pressure 35 
triceps_thickness 227 


serum insulin 马 罗 如 
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bmi 
pedigree_function 

age 

onset_diabetes 

dtype: int64 


看 一 下 plasma_glucose_concentration 列 的 5 个 缺失 值 : 


empty_plasma_index = pimalpima['plasma_glucose_ concentration'].isnull()].index 
pima.loc[empty_plasma_index] ['plasma_glucose_ concentration'] 


Le 


175 None 
182 None 
342 None 
349 None 
502 None 


Name: plasma_glucose concentration, dtype: object 


现在 可 以 用 内 置 的 fillna 方法 , 将 所 有 的 None 填充 为 plasma_glucose_concentration 
列 其 余数 据 的 均值 : 


pima[l'plasma_glucose_ concentration'] .fillna(pima[l'plasma_glucose concentration']. 
mean(), inplace=True) 


# 用 此 列 其 他 数据 的 均值 填充 





pima.isnull() .sum() # 现在 应 该 没有 缺失 值 了 


times_pregnant 0 
plasma glucose concentration 0 
diastolic_blood pressure 35 
triceps_thickness 227 
serum_ insulin 7 村 
pmi 于 
pedigree_function 0 
age 0 
onset_diabetes 0 


dtype: int64 


如 果 查 看 各 列 ， 应 该 会 发 现 原来 的 None 被 121.68 取代 了 ， 这 个 值 就 是 该 列 的 均值 : 


pima.loc[empty_plasma_index]['plasma_glucose concentration'] 





75 121..686763 
182 121.686763 
342 121.686763 
349 121.686763 
502 121.686763 
Name: plasma_glucose concentration, dtype: float64 


厉害 ! 但 是 这 样 有 点 麻烦 。 我 们 用 scikit-learn 预 处 理 类 的 Imputer 模块 (文档 位 于 
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing )， 称 它 为 “填充 需 ” 
名 副 其 实 。 可 以 这 样 导 入 : 


from sklearn.preprocessing import Imputer 
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这 个 


为 了 


Tr 


和 大 部 分 scikit-learn 模块 一 样 ， 我 们 有 几 个 新 的 参数 可 以 调节 ， 但 是 主要 关注 strategy。 
参数 可 以 调节 如 何 填充 缺失 值 。 对 于 定量 值 ， 可 以 使 用 内 置 的 均值 或 中 位 数 策略 来 填充 值 。 
使 用 Imputer， 必 须 先 实例 化 对 象 ， 方 法 如 下 : 


imputer = Imputer (Strategy='mean' ) 


然后 调用 fit_transfornm 方法 创建 新 对 象 ; 


pima_imputed = imputer.fit_ transform(pima) 


我 们 有 个 小 问题 要 处 理 。Imputer 的 输出 值 不 是 Pandas 的 DataFrame， 而 是 NumPy 数组 : 


type (pima_imputed)  # 是 数组 








I 
































numpy .ndarray 


解决 方法 很 简单 ， 因 为 我 们 可 以 将 任何 数组 直接 变 成 DataFrame， 方 法 如 下 : 


pima_imputed = pd.DataFrame (pima_imputed, columns=pima_column names) 
# 将 数组 转换 回 Pandas 的 DataFrame 对 象 


来 看 看 新 的 DataFrame: 


pima_imputed.head() # 注意 triceps_thickness 的 缺失 值 被 29.15342 替代 


输出 结果 如 下 表 所 示 。 





























times_pregnant Dasma gor ee a serum_insulin bmi pedigree function age onset diabetes 
0 6.0 148.0 20 35.00000 155.548223 33.6 0.627 50.0 1.0 
1 1.0 85.0 66.0 29.00000 155.548223 26.6 0.351 31.0 0.0 
立 8.0 183.0 64.0 29.15342 155.548223 23.3 0.672 32.0 1.0 
3 1.0 89.0 66.0 23.00000 94.000000 28.1 0.167 21.0 0.0 
4 0.0 137.0 40.0 35.00000 168.000000 43.1 2.288 33.0 1.0 
我 们 检查 一 下 plasma_glucose_concentration 列 ， 确 保 填充 的 值 和 之 前 手动 计算 的 值 
相同 : 


pima_imputed.loc[empty_plasma_index] ['plasma_glucose_concentration'] 
# 和 fillna 的 填充 相同 


了 号 121.5686.763 
182 121.686763 
342 121..686:763 


349 121.686763 
502 121.686763 
Name: plasma_glucose concentration, dtype: float64 


最 后 检查 一 下 ，DataFrame 不 应 该 有 缺失 值 ， 方 法 如 下 : 


pima_imputed.isnull().sum() # 没有 缺失 值 





times_pregnant 0 
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plasma_glucose_concentration 
diastolic_ blood pressure 
triceps_thickness 

serum insulin 

lbmi 

pedigree_function 

age 

onset_diabetes 

dtype: int64 


好 极 了 ! Imputer 在 很 大 程度 上 解决 了 填充 缺失 值 的 琐事 。 我 们 尝试 填充 一 些 别 的 值 ， 看 
看 对 KNN 模型 的 影响 。 首 先 尝试 一 种 更 简单 的 填充 方法 ， 用 0 替代 所 有 的 缺失 值 : 
pima_zero = pima.fillna(0) # 用 0 填充 


X_zZero = Dima_zero.dqrop('onset_dqiabetes'，axis=1) 站 
print ("learning from {} rows" .format (X_zero.shape[0])) 


Y_zero = pima_zero['onset_ diabetes'] 


LJ 




















knn params = {'n neighbors':[1, 2, 3, 4, 5, 6, 7]} 
grid = GridSearchCV (knn, knn_ params) 
grid.fit (x _ zero, y_zero) 


print (grid.best_score_ , grid.best_params, ) 


# 用 0 填充 准确 率 下 降 

Jearning from 768 rows 

0.7330729166666666 {'n_neighbors': 6} 

如 果 用 0 填充 , 准确 率 会 低 于 直接 删 掉 有 缺失 值 的 行 。 目 前 , 我 们 的 目标 是 建立 一 个 可 以 从 
全 部 768 行 中 学 习 的 机 需 学 习 流 水 线 ， 而 且 比 仅 用 392 行 的 结果 还 好 。 也 就 是 说 ,我 们 的 结果 要 
好 于 0.745， 即 74.5%。 















































3.2.3 ”在 机 器 学 习 流水 线 中 填充 值 
如 果 想 把 Imputer 转移 到 机 器 学 习 流水 线 上 ， 我 们 需要 简要 了 解 一 下 关于 流水 线 的 话题 。 
机 器 学 习 流 水 线 


在 机 带 学 习 这 一 语 境 中 讨论 流水 线 的 时 候 ， 一 般 指 的 是 在 被 解读 为 最 终 输出 之 前 ， 原 始 数 
据 不 仅仅 进入 一 种 学 习 算 法 ， 而 且 会 经 过 各 种 预 处 理 步 骤 ， 乃 至 多 种 学 习 算 法 。 因 为 机 器 学 习 
流水 线 通 常 有 很 多 步 ， 会 对 数据 进行 转换 和 预测 ， 所 以 scikit-learn 有 一 个 用 于 构建 流水 线 的 内 
置 模块 。 


用 Imputer 类 填充 值 的 时 候 不 使 用 流水 线 其 实 是 很 不 恰当 的 ， 因 此 流水 线 尤 其 重要 。 这 是 
因为 学 习 算法 的 目标 是 泛 化 训练 集 的 模式 并 将 其 应 用 于 测试 集 。 如 果 在 划分 数据 集 和 应 用 算法 之 
前 直接 对 整个 数据 集 填充 值 ， 我 们 就 是 在 作弊 ,模型 其 实学 不 到 任何 模式 。 为 了 将 这 个 概念 可 视 
化 ,我们 对 训练 集 和 测试 集 进 行 一 次 划分 ， 在 交叉 验证 中 可 能 会 进行 多 次 划分 。 
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复制 一 份 皮 马 印第安 人 数据 集 ， 从 scikit-learn 中 导入 一 个 划分 模块 : 


from sklearn.model_selection import train test_split 


xX = pima[l['serum insulin']] .copy() 
y = pima[l'onset_diabetes'] .copy() 
XxX.isnull().sum() 

serum_ insulin 3374 


dtype: int64 

现在 进行 一 次 划分 。 在 划分 前 ， 对 整个 数据 集 填充 变量 x 的 均值 ， 代 码 如 下 : 
# 不 恰当 的 做 法 : 在 划分 前 填充 值 

entire_data_set_mean = X.mean() # 取 整 个 数据 集 的 均值 

x = XxX.fillna(entire data_set_mean) # 填充 缺失 值 


print (entire data_set_ mean) 


serum_ insulin 155.548223 
dtype: float64 


# 使 用 一 个 随机 状态 ， 使 每 次 检查 的 划分 都 一 样 


xX train, XxX test, y_train, y_test = train test_split(xX, y, random state=99) 


用 KNN 模型 拟 合 训练 集 和 测试 集 : 


knn = KNeighborsClassifier() 








knn.fit (x train, y_train) 
knn.score(XxX test, y_test) 
0.65625 # 不 恰当 做 法 的 准确 率 


注意 我 们 没有 进行 任何 网 格 搜索 ， 只 做 了 简单 的 拟 合 。 可 以 看 见 , 模型 的 准确 率 是 66% ( 并 
不 好 ,但 这 不 是 重点 )。 重点 是 ， 训 练 集 和 测试 集 都 是 用 整个 x 和 矩阵 的 均值 填充 的 。 这 违反 了 机 
器 学 习 流 程 的 核心 原则 。 当 预测 测试 集 的 响应 值 时 , 不 能 假设 我 们 已 经 知道 了 整个 数据 集 的 均值 。 
简 而 言 之 ， 我 们 的 KNN 模型 利用 了 测试 集 的 信息 以 拟 合 训 练 集 ， 所 以 亮 红 灯 了 。 

如 果 想 了 解 关 于 流水 线 以 及 为 何 需要 流水 线 的 更 多 信息 ,请 参阅 《数据 科学 原理 》 
过 否 5 

现在 用 恰当 的 方法 再 做 一 遍 。 我 们 先 计 算出 训练 集 的 均值 ， 然 后 用 它 填 充 测试 集 的 缺失 值 。 
这 个 过 程 再 一 次 测试 了 模型 用 训练 数据 的 均值 预测 未 知 测试 集 的 能 

# 恰当 的 做 法 : 在 划分 后 填充 值 


from sklearn.model_ selection import train test_split 












































xX = pima[l['serum insulin']] .copy() 
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y = pima['onset_diabetes'] .copy() 


# 使 用 相同 的 随机 状态 ， 保 证 划分 不 变 


XxX_train, Xx _ test, y_train, y_test = train test_split(xX, y, random state=99) 
XxX.isnull().sum() 


serum_ insulin 374 
dtype: int64 


这 里 不 取 整 个 x 和 矩阵 的 均值 ， 而 是 用 训练 集 的 均值 填充 训练 集 和 测试 集 的 缺失 值 : 


training mean = X_ train.mean() 
XxX _ train = XxX_ train.fillna(training_ mean) 
XxX_test = XxX test.fillnal(training_ mean) 























1 














print (training_mean) 


serum_ insulin 158.546053 
dtype: float64 
# 不 是 整个 数据 集 的 均值 ， 它 高 得 多 


最 后 ， 给 在 同一 个 数据 集 上 正确 填充 缺失 值 的 KNN 模型 打分 : 


knn = KNeighborsClassifier() 





knn.fit (x train, y_train) 
print (knn.score(X test, y_test)) 


0.4895833333333333 
# 低 一 些 ， 但 是 比 之 前 的 更 诚实 ， 更 能 表示 泛 化 能 力 
准确 率 的 确 低 得 多 , 但 是 至 少 更 诚实 地 代表 了 模型 的 泛 化 能 力 ， 即 从 训练 集 的 特征 中 学 习 并 将 
所 学 应 用 到 未 知 隐藏 数据 上 的 能 力 。 通 过 为 机 器 学 习 流 水 线 的 各 个 步骤 提供 结构 和 顺序 ，scikitleam 
让 搭建 流水 线 变 得 更 加 容易 。 下 面 看 看 如 何 结合 使 用 scikit-learn 的 Pipeline 和 Imputer: 


from sklearn.pipeline import Pipeline 


























knn_ params = {'classify_ n neighbors':[1, 2, 3, 4, 5, 6, 7]} 
# 必须 重新 定义 参数 以 符合 流水 线 


knn = KNeighborsClassifier() # 实例 化 KNN 模型 
mean_impute = Pipeline([('imputer', Imputer(strategy='mean')), ('classify', knn)]) 


又 
| 


pima.drop('onset_diabetes', axis=1) 
pimal'onset_diabetes'] 


grid = GridSearchCV (mean_impute, knn_ params) 
grid.fit (xX, y) 


print (grid.best_score_ , grid.best_ params_ ) 
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mean_impute = Pipeline([('imputer', Imputer(strategy='mean')), ('classify', knn)]) 
0.731770833333 {'classify_n neighbors': 6} 

有 几 件 事 需 要 注意 。 

第 一 ， 我 们 的 Pipeline 分 两 步 : 

口 拥有 strategy='mean' 的 TmeulGer; 

口 KNN 类 型 的 分 类 器 。 

第 二 ， 要 为 网 格 搜索 重新 定义 param 字典 ， 因 为 必须 明确 n_neighpors 参数 所 属 的 步骤 : 
knn params = {'classify n neighbors':[1, 2, 3, 4, 5, 6, 7]} 


除 此 之 外 ， 其 他 一 切 都 很 平常 。Pipeline 类 会 蔡 我 们 处 理 大 部 分 流程 : 可 以 恰当 地 从 多 个 
训练 集 取 值 并 用 其 填充 测试 集 的 缺失 值 ， 还 可 以 正确 测试 KNN 的 泛 化 能 力 ， 最 终 输出 性 能 最 佳 
的 模型 。 本 例 中 的 准确 率 是 0.73 ， 略 微 低 于 我 们 的 目标 0.745。 了 人 解 这 一 语法 后 ， 我 们 可 以 重 写 
一 遍 代码 ， 但 是 略 作 修改 ， 如 下 所 示 : 


knn_params = {'classify n neighbors':[1, 2, 3, 4, 5, 6, 7]} 





















































knn = KNeighborsClassifier() # 实例 化 KNN 模型 


median_ impute = Pipeline([('imputer', Imputer(strategy='median')), ('classify', 
knn)]) 

xX = pima.drop('onset diabetes', axis=1) 

y = pima[l'onset_diabetes'] 


grid = GridSearchCV (median impute, knn_ params) 
rifit (X.Y) 


print (grid.best_score , grid.best_ params_ ) 

这 里 唯一 的 区 别 是 , 我 们 的 流水 线 尝试 了 一 种 不 同 的 填充 策略 : 用 剩余 值 的 中 位 数 填充 缺失 
值 。 重申 一 下 , 这 里 的 准确 率 可 能 比 完全 删除 存在 缺失 值 的 行 更 差 , 但 是 我 们 的 训练 数据 是 之 前 
的 两 倍 ! 况且 ， 这 个 办 法 还 是 比 一 开始 所 有 数据 都 是 0 要好。 

我 们 花 一 分 钟 时 间 回 顾 一 下 使 用 恰当 流水 线 的 得 分 。 







































































流水 线 描述 训练 行 数 交叉 验证 准确 率 
删除 缺失 值 392 0.74489 

] 0 填充 768 0.7330 

均值 填充 768 0.7318 

中 位 数 填充 768 0.7357 














如 果 只 看 准确 率 ， 最 好 的 办 法 似乎 是 删 掉 有 缺失 值 的 行 。 也 许 只 靠 scikit-learn 的 Pipeline 
和 Imputer 还 不 够 。 如 果 有 可 能 ,我们 还 是 希望 利用 全 部 768 行 的 实现 类 似 的 性 能 ,其 至 更 好 。 
为 此 ， 我 们 引入 全 新 的 特征 工程 技巧 : 标准 化 和 归 一 化 。 
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到 目前 为 止 ， 我 们 已 经 知道 了 如 何 识别 数据 类 型 ， 如 何 识别 缺失 值 ， 以 及 如 何 处 理 缺 失 值 。 
现在 继续 讨论 如 何 处 理 数 据 〈 和 特征 )， 以 进一步 增强 机 需 学 习 流 水 线 。 目 前 ， 我 们 已 经 用 过 4 
种 不 同 的 方式 处 理 数据 集 , 最 佳 的 KNN 交叉 验证 准确 率 是 0.745。 如果 回 头 看 之 前 的 探索 性 数据 
分 析 ， 会 发 现 一 些 特征 的 性 质 : 


impute = Imputer (Strategy='mean') 


# 填充 所 有 的 缺失 值 








Pima_imputed_mean = pd.DataFrame (impute.fit transform(pima), 
columns=pima_column_ names) 


用 标准 直方 图 查看 所 有 9 列 的 分 布 情况 ， 指 定 一 个 图 像 大 小 : 


Pima_imputed_mean.hist(figsize=(15，15)) 


以 上 代码 的 输出 如 下 图 所 示 。 
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很 好 ， 但 是 你 注意 到 什么 了 吗 ? 每 列 的 均值 、 最 小 值 、 最 大 值 和 标准 差 差 别 很 大 。 通 过 
descripe 方法 也 可 以 看 到 很 明显 的 差别 : 


pima_imputed_ mean.descripe() 
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结果 如 下 表 所 示 。 





times_ plasma_glucose_ diastolic blood_ triceps_ serum_ : pedigree_ onset_ 

pregnant concentration pressure thickness insulin bm function age diabetes 
count 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 
mean 3.845052 121.686763 72.405184 29.153420 155.548223 32.457464 0.471876 33.240885 0.348958 
std 3.369578 30.435949 12.096346 8.790942 85.021108 6.875151 0.331329 11.760232 0.476951 
min 0.000000 44.000000 24.000000 7.000000 14.000000 18.200000 0.078000 ”21.000000 0.000000 
25% 1.000000 99.750000 64.000000 25.000000 121.500000 ”27.500000 0.243750 24.000000 0.000000 
50% 3.000000 117.000000 72.202592 29.153420 155.548223 32.400000 0.372500 29.000000 0.000000 
75% 6.000000 140.250000 80.000000 32.000000 155.548223 36.600000 0.626250 41.000000 1.000000 


max 17.000000 199.000000 122.000000 99.000000 846.000000 67.100000 2.420000 81.000000 1.000000 


这 有 什么 关系 呢 ? 因为 一 些 机 需 学 习 模 型 受 数据 尺度 〈scale ) 的 影响 很 大 。 这 意味 着 如 果 
diastolic_bloogd_pressure 列 的 舒张 压 在 24 ~ 122, 但 是 年 龄 是 21 ~ 81, 那么 算法 不 会 达到 
最 优化 状态 。 我 们 可 以 在 直方 图 方法 中 调用 可 选 的 sharex 和 sharey 参数 , 在 同一 比例 下 查看 
每 个 图 表 : 


pima_imputed mean.hist (figsize=(15, 15), sharex=True) 


# x 轴 相同 (y 轴 不 重要 ) 


以 上 代码 的 输出 如 下 图 所 示 。 
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很 明显 ， 所 有 的 数据 尺度 都 不 同 。 数 据 工 程 师 可 以 选用 某 种 归 一 化 操作 ， 在 机 器 学 习 流 水 
线 上 处 理 该 问题 。 归 一 化 操作 旨 在 将 行 和 列 对 齐 并 转化 为 一 致 的 规则 。 例 如 ， 归 一 化 的 一 种 常 
见 形式 是 将 所 有 定量 列 转化 为 同一 个 静态 范围 中 的 值 ( 例如， 所 有 数 都 位 于 0~ 1 )。 我 们 也 可 
以 使 用 数学 规则 ， 例 如 所 有 列 的 均值 和 标准 差 必须 相同 ， 以 便 在 同一 个 直方 图 上 显示 〈 和 上面 
皮 马 人 的 直方 图 不 同 )。 标准 化 通过 确保 所 有 行 和 列 在 机 器 学 习 中 得 到 平等 对 待 , 让 数据 的 处 理 
保持 一 致 。 


我 们 将 重点 关注 3 种 数据 归 一 化 方法 : 


口 分数 标准 化 ; 
口 min-max 标准 化 ; 
口 行 归 一 化 。 


前 两 个 办 法 特别 用 于 调整 特征 ， 而 第 三 个 办 法 虽然 操作 行 ， 但 效果 和 前 两 个 相当 。 




















3.3.1 Zz 分 数 标 准 化 


z 分 数 标准 化 是 最 常见 的 标准 化 技术 ， 利 用 了 统计 学 里 简单 的 z 分 数 ( 标准 分 数 ) 思想 。 
= 分数 标 准 化 的 输出 会 被 重新 缩放 , 使 均值 为 0、 标准 差 为 1。 通 过 缩放 特征 、 统 一 化 均值 和 方差 
(标准 差 的 平方 )， 可 以 让 KNN 这 种 模型 达到 最 优化 ， 而 不 会 倾向 于 较 大 比例 的 特征 。 公 式 很 简 
单 ， 对 于 每 列 ， 用 这 个 公式 替换 单元 格 : 















































z=(x—1)/o 
在 这 个 公式 中 : 


口 z 是 新 的 值 (z 分 数 ); 
口 x 是 单元 格 原来 的 值 ; 
口 h4 是 该 列 的 均值 ; 
口 “是 列 的 标准 差 。 




















Lplasma _ glucose concentration 列 的 缩放 为 例 : 


print (pima['plasma_glucose concentration'].head()) 


0 148.0 
J 上 8:5: :0 
2 183.0 
3 89.0 
4 L370 
Name: plasma_glucose concentration, dtype: float64 


用 下 面 的 代码 手动 计算 列 的 z 分 数 : 
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# 取 此 列 均值 


mu = pima['plasma_glucose_ concentration'] .mean() 


# 取 此 列 标准 差 


sigma = Dima['pblasma_ glucose_concenttation'].stdq() 


# 对 每 个 值 计算 z 分 数 
print (((pima['plasma_glucose concentration'] - mu) / sigma) .head()) 


0.864545 

-205376 

270T4501 

=1.073952 

0 503130 

Name: plasma_glucose concentration, dtype: float64 


可 以 看 到 , 该 列 中 的 每 个 值 都 会 被 替换 ,而 且 某 些 值 是 负 的 。 这 是 因为 该 值 代表 到 均值 的 距 
离 ， 如 果 它 最 初 低 于 该 列 的 均值 ，z 分 数 就 是 负数 。 当 然 ， 在 scikit-learn 中 有 内 置 的 对 象 帮助 我 
们 计算 ， 代 码 如 下 : 

# 内 置 的 zZ 分 数 归 一 化 

from sklearn.preprocessing import StandardScaler 

我 们 试 试 吧 : 

# z 分 数 标准 化 前 的 均值 和 标准 差 


Dima['plasma glucose_concenttation'].mean()， 
Dima['plasma glucose_concenttration'].stdq() 


以 DODOPO 
1 
和 





(121.68676277850591, 30.435948867207657) 


ax = pima['plasma_ glucose_ concentration'] .hist() 
ax.set_ title('Distribution of plasma_ glucose_concentration') 


以 上 代码 的 输出 如 下 图 所 示 。 





Distribution of plasma_glucose_concentration 


150 


125 

















可 以 看 见 该 列 处 理 前 的 分 布 情况 。 现 在 应 用 z 分 数 标 准 化 ， 代 码 如 下 : 
scaler = StandardSscaler() 


glucose_z_score standardized = 
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scaler.fit transform(pima[l['plasma_glucose concentration']]) 


# 注意 我 们 用 双方 括号 ， 因 为 转换 需要 一 个 DataFrame 


# 均值 是 0 ( 浮 点 数 误 差 ) ， 标准 差 是 1 


9lucose_z_score_standqardizedq.mean()，glucose_z_score_standqardqizedq.stdq() 
(-3.561965537339044e-16, 1.0) 


在 应 用 缩放 后 ， 均 值 下 降 到 0， 标准 差 为 1。 下面 进一步 查看 缩放 后 数据 的 分 布 情况 : 


ax = pd.Series(glucose z_score_ standardized.reshape(-1,)).hist!() 
ax.set_ title('Distribution of plasma_ glucose_ concentration after 2 Score Scaling') 


以 上 代码 的 输出 如 下 图 所 示 。 





Distribution of plasma_glucose_concentration after Z Score Scaling 
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我 们 观察 到 x 轴 更 紧密 了 ,，) 轴 则 没有 变化 。 注 意 ， 数 据 的 形状 没有 变化 。 在 对 每 一 列 都 进 
行 了 分 数 转换 后 ,我 们 观察 一 下 DataFrame 的 直方 图 。 操作 时 ，standardscaler 会 对 每 列 单独 
计算 均值 和 标准 差 : 


scale = StandardScaler() # 初始 化 一 个 z-scaler 对 象 


pima_imputed mean _ scaled = pd.DataFrame (scale.fit transform(pima_imputed mean), 
columns=pima_column_ names) 


pima_imputed mean_ scaled.hist (figsize=(15, 15), sharex=True) 
# 空间 相同 了 


以 上 代码 的 输出 如 下 图 所 示 。 
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注意 整个 数据 集 的 x* 轴 都 更 加 紧密 了 。 现 在 将 standardscaler 插入 之 前 的 机 器 学 习 流 水 
线 中 : 


knn_params = {'imputer_ strategy':['mean', 'median'], 'classify mn neighbors':[1, 2, 
By HA Sei Gn 


mean_impute_standardize = Pipeline([('imputer', Imputer()), ('standardize', 
StandardScaler()), ('classify', knn)]) 

xX = pima.drop('onset_ diabetes', axis=1) 

y = pima[l'onset_diabetes'] 


grid = GridSearchCV (mean_ impute_ standardize, knn_ params) 
gL:Eit( 


print (grid.best_score , grid.best params_ ) 


0.7421875 {'classify_ mn neighbors': 7, 'imputer strategy': 'median'} 


有 几 件 事 需要 注意 。 我 们 在 网 格 搜索 中 加 入 了 一 些 新 的 参数 , 填充 缺失 值 。 现 在 我 们 正在 寻 
找 KNN 中 策略 和 邻居 数 的 最 佳 组 合 ,目前 的 得 分 是 0.742, 这 是 至 今 为 止 的 最 佳 得 分 , 接近 目标 
0.745。 这 条 流水 线 从 整个 768 行 中 学 习 。 我 们 现在 看 看 另 一 种 标准 化 方法 。 
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3.3.2 min-max 标准 化 


min-max 标准 化 和 = 分 数 标准 化 类 似 , 因为 它 也 用 一 个 公式 蔡 换 列 中 的 每 个 值 。 此 处 的 公式 是 : 





111 二 (x > ii) f (max Xmin) 
在 这 个 公式 中 : 
口 m 是 新 的 值 ; 
口 x 是 单元 格 原来 的 值 ; 
口 xmin 是 该 列 的 最 小 值 ; 
DD Xmax 是 该 列 的 最 大 值 。 
使 用 这 个 公式 可 以 看 到 ， 每 列 所 有 的 值 都 会 位 于 0 ~ 1。 我 们 用 scikit-learn 的 内 置 模块 试 试 : 


# 导入 sklearn 模块 
from sklearn.preprocessing import MinMaxScaler 












































# 实例 化 
min max = MinMaxScaler() 


# 使 用 min-max 标准 化 
pima_min maxed = pd.DataFrame (min max.fit_ transform(pima_imputed), 
columns=pima_column_ names) 


# 得 到 描述 性 统计 
pima_min maxed.describe() 


describe 方法 的 输出 如 下 表 所 示 。 


plasma_glucose diastolic_blood 





me Progen Sonetons hose hoa, Ane Bil” rol ge Moleils 
count 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 768.000000 
mean 0.226180 0.501205 0.493930 0.240798 0.170130 0.291564 0.168179 0.204015 0.348958 
std 0.198210 0.196361 0.123432 0.095554 0.102189 0.140596 0.141473 0.196004 0.476951 
min 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 0.000000 ”0.000000 0.000000 
25% 0.058824 0.359677 0.408163 0.195652 0.129207 0.190184 0.070773 0.050000 0.000000 
50% 0.176471 0.470968 0.491863 0.240798 0.170130 0.290389 0.125747 0.133333 0.000000 
75% 0.352941 0.620968 0.571429 0.271739 0.170130 0.376278 0.234095 0.333333 1.000000 
max 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 1.000000 











注意 , 最 小 值 都 是 0, 最 大 值 都 是 1。 进 一 步 注意 ,这 种 缩放 的 副作用 是 标准 差 都 非常 小 。 这 





有 可 能 不 利于 某 些 模型 , 因为 异常 值 的 权重 降低 了 。 我 们 将 新 的 标准 化 方法 插 和 人 机 器 学 习 流水 线 : 


knn_params = {'imputer strategy': ['mean'，'medqian']，'classify n neighbors':[1, 2, 
让 


mean_impute_standardize = Pipeline([('imputer', Imputer()), ('standardize', 
MinMaxScaler()), ('classify', knn)]) 
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又 
Y¥ 


pima.drop('onset_diabetes', axis=1) 
pima[l'onset_diabetes'] 


| || 


grid = GridSearchCV (mean_ impute_ standardize, knn_ params) 
SrLdrf1ity(; yy) 


print (grid.best_score , grid.best params_ ) 


0.74609375 {'classify_ mn neighbors': 4, 'imputer strategy': 'mean'} 


这 是 至 今 使 用 包括 缺失 数据 的 全 部 768 行 的 最 好 结果 。 看 起 来 min-max 缩放 对 KNN 有 很 大 
帮助 ! 我 们 现在 试 试 第 三 种 标准 化 ， 把 关注 点 从 列 转 移 到 行 上 。 

















3.3.3 行 归 一 化 


最 后 这 个 标准 化 方法 是 关于 行 ， 而 不 是 关于 列 的 。 行 归 一 化 不 是 计算 每 列 的 统计 值 ( 均值 、 
最 小 值 、 最 大 值 等 )， 而 是 会 保证 每 行 有 单位 范 数 (unitnorm )， 意味 着 每 行 的 向 量 长 度 相 同 。 想 
象 一 下 ， 如 果 每 行 数据 都 在 一 个 n 维 空间 内 ， 那 么 每 行 都 有 一 个 向 量 范 数 ( 长度 )。 也 就 是 说 ， 
我 们 认为 每 行 都 是 空间 内 的 一 个 向 量 : 






































X= (CCD X2, ,Xn) 


在 皮 马 人 数据 集中 为 8， 每 个 特征 一 个 (不 包括 响应 )， 那 么 范 数 的 计算 方法 是 : 


[lx||= ++) 
这 是 L2 范 数 。 其 他 类 型 的 范 数 也 存在 ， 但 是 不 在 这 里 讨论 。 我 们 关心 的 是 ， 让 每 行 都 有 相 
同 的 范 数 。 在 使 用 文本 数据 或 聚 类 算法 时 ， 这 非常 方便 。 
在 开始 之 前 ， 先 看 看 用 均值 填充 后 的 输入 和 矩阵 的 平均 范 数 ， 代 码 如 下 ; 


npb.sdrt( (pima_imputedqxrx2).sSum(axis=1)) .mean() 


# 给 阵 的 平均 范 数 





















































6222025823744 

我 们 用 下 面 的 代码 引入 行 归 一 化 : 

from sklearn.preprocessing import Normalizer # 行 归 一 化 
normalize = Normalizer() 


pima_normalized = pd.DataFrame (normalize.fit transform(pima imputed), 
columns=pima_column_ names) 


np.sgqrt ((pima normalized**2) .sum(axis=1)) .mean() 


# 行 归 一 化 后 算 阵 的 平均 范 数 


1;0 
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在 归 一 化 后 ， 所 有 行 的 范 数 都 是 1 了 。 看 看 这 个 方法 在 流水 线 上 表现 如 何 : 


knn_ params = {'imputer_ _strategy': ['mean', 'median'], 'classify nm neighbors':[1, 2, 
3 A ri 0 











mean_impute normalize = Pipeline([('imputer', Imputer()), ('normalize', 
Normalizer()), ('classify', knn)]) 

xX = pima.drop('onset_ diabetes', axis=1) 

y = pima['onset_diabetes'] 


grid = GridSearchCV (mean_ impute normalize, knn params) 
Eid tit (XY 


print (grid.best_score , grid.best_ params_ ) 


0.6822916666666666 {'classify_ mn neighbors': 6, 'imputer strategy': 'mean'} 


不 怎么 样 ， 但 值得 一 试 。 现 在 我 们 知道 了 3 种 不 同 的 数据 标准 化 方法 ， 把 它们 整合 在 一 起 ， 
看 看 如 何 处 理 这 个 数据 集 吧 。 


很 多 算法 会 受 尺度 的 影响 ， 下 面 就 是 其 中 一 些 流 行 的 学 习 算法 : 


口 KNN 一 一 因为 依赖 欧 几 里 得 距离 ，; 

口 开 均值 聚 类 一 -和 KNN 的 原因 一 样 ; 

口 逻辑 回归 、 支 持 向 量 机 、 神 经 网 络 一 一 如 果 使 用 梯度 下 降 来 学 习 权 重 ; 
口 主 成 分 分 析 一 一 特征 向 量 将 偏向 较 大 的 列 。 











瑟 











3.3.4 整合 起 来 
处 理 了 数据 集 的 各 种 问题 (包括 识别 隐藏 为 0 的 缺失 值 , 填充 缺失 值 ， 以 及 按 不 同比 例 标 准 

































































化 数据 )， 现 在 可 以 列 出 所 有 的 得 分 ， 看 看 哪 种 办 法 最 好 。 
描述 使 用 的 列 数 交叉 验证 准确 率 
| 除 存在 缺失 值 的 行 392 0.7449 
用 0 填充 768 0.7304 
均值 填充 768 0.7318 
中 位 数 填充 768 0.7357 
中 位 数 填充 ，z 分数 标准 化 768 0.7422 
用 均值 填充 ，min-max 标准 化 768 0.7461 
均值 填充 ， 行 归 一 化 768 0.6823 
看 来 我 们 终于 可 以 用 均值 填充 和 min-max 标准 化 的 方法 得 到 最 好 的 结果 了 , 而 且 依 旧 使 用 全 





部 的 768 列 。 不 错 ! 
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3.4 小 结 


特征 增强 的 意义 是 , 识别 有 问题 的 区 域 , 并 确定 哪 种 修复 方法 最 有 效 。 我 们 的 主要 想法 应 该 
是 用 数据 科学 家 的 眼光 看 数据 。 我 们 应 该 考虑 如 何 用 最 好 的 方法 解决 问题 ,而 不 是 删除 了 事 。 一 
般 来 说 ， 机 器 学 习 算法 最 终 会 因此 取得 让 我 们 欣 奈 的 表现 。 

本 章 包括 几 种 处 理 定量 列 的 办 法 。 下 一 章 将 处 理 定性 列 的 填充 , 以 及 如 何 从 现 有 的 特征 引入 
全 新 的 特征 。 我 们 会 使 用 scikit-learn 的 管道 ， 对 数值 列 和 类 别 列 进行 混合 , 大 大 扩展 可 以 使 用 的 
数据 类 型 。 
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在 上 一 章 中 ,我 们 借助 “ 皮 马 印第安 人 糖尿 病 预测 数据 集 ” 理 解 了 哪些 现 有 特征 最 有 价值 。 
在 使 用 现 有 特征 时 ,我 们 识别 了 各 列 的 缺失 值 ， 使 用 不 同 的 方法 删除 或 填充 了 缺失 值 ， 并 对 数据 
进行 标准 化 / 归 一 化 ， 从 而 提高 了 机 带 学 习 模 型 的 准确 率 。 


需要 注意 的 是 ,之 前 使 用 的 特征 都 是 定量 的 。 我 们 现在 就 开始 转 而 研究 分 类 数据 。 我 们 的 主 4 
要 目的 是 ， 使 用 现 有 特征 构建 全 新 的 特征 ， 让 模型 从 中 学 习 。 


有 很 多 方法 可 以 构建 新 特征 : 最 简单 的 办 法 是 用 Pandas 将 现 有 的 特征 扩大 几 倍 ; 我 们 也 会 
研究 一 些 更 依靠 数学 的 方法 ， 并 使 用 scikit-leam 包 的 很 多 部 分 ; 我 们 还 会 编写 自己 的 类 。 稍 后 真 
正 写 代码 时 会 进行 深入 研究 。 

我 们 会 探讨 如 下 主题 : 

D 检查 数据 集 ; 
口 填充 分 类 特征 ; 
口 编码 分 类 变量 ; 
口 扩展 数值 特征 ; 
口 针对 文本 的 特征 构建 。 


4.1 检查 数据 集 


为 了 进行 演示 ， 本章 会 使 用 我 们 自己 创建 的 数据 集 ， 以 便 展 示 不 同 的 数据 等 级 和 类 型 。 我 们 
先 设置 数据 的 DataFrame。 

用 Pandas 创建 要 使 用 的 DataFrame， 这 也 是 Pandas 的 主要 数据 结构 。 这 样 做 的 优点 是 可 以 
用 很 多 属性 和 方法 操作 数据 ， 从 而 对 数据 进行 符合 逻辑 的 操作 ， 以 深入 了 解 我 们 使 用 的 数据 ， 以 
及 如 何 最 好 地 构建 机 器 学 习 模 型 。 
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(1) 首先 导入 Pandas: 


import pandas as pd 





(2) 然后 就 可 以 设置 DataFrame X 了 。 我 们 用 Pandas 的 DataFrame 方法 创建 表格 数据 结构 
( 带 行 和 列 的 表格 )。 这 个 方法 可 以 接受 不 同类 型 的 数据 ( 例如 ，NumPy 数组 和 字典 等 )。 在 本 例 
中 ， 我 们 传 入 一 个 字典 ， 其 键 是 列 标题 、 值 是 列表 ， 每 个 列表 代表 一 列 : 











xX = pd.DataFrame({'city':['tokyo', None, 'london', 'seattle', 'san francisco', 
'tokyo'] 
'boolean':['yes', 'no', None, 'no', 'no', 'yes'], 
'ordinal_column':['somewhat like', 'like', 'somewhat like', 'like', 
'somewhat like', 'dislike'], 
'quantitative_ column':[1, 11, -.5, 10, None, 20]}) 

(3) 这 样 会 生成 一 个 6 行 4 列 的 DataFrame。 可 以 打印 x 来 查看 数据 : 

print (xXx) 


我 们 会 得 到 如 下 表 所 示 的 输出 。 





boolean city ordinal_column quantitative_column 
0 yes tokyo somewhat like 1.0 
1 no None like 11.0 
2 None london somewhat like —0.5 
3 no seattle like 10.0 
4 no san francisco somewhat like NaN 
5 yes tokyo dislike 20.0 


观察 每 一 列 ， 并 识别 每 列 的 类 型 和 等 级 。 


口 boolean (布尔 值 ): 此 列 是 二 元 分 类 数据 ( 是 / 否 )， 定 类 等 级 。 

D city (城市 );， 此 列 是 分 类 数据 ， 也 是 定 类 等 级 。 

D orqinal_column (顺序 列 ): 顾名思义 ， 此 列 是 顺序 数据 ， 定 序 等 级 。 
口 quantitative_column (定量 列 )， 此 列 是 整数 ， 定 比 等 级 。 












































4.2 填充 分 类 特征 
我 们 已 经 对 要 处 理 的 数据 有 了 一 定 的 理解 ， 现 在 可 以 看 看 缺失 值 。 


口 为 了 完成 此 任务 ， 可 以 利用 Pandas DataFrame 的 isnull 方法 。 这 个 方法 返回 一 个 布尔 
值 对 象 ， 表 示 数 据 是 否 为 空 。 
口 然后 调用 sum 方法 查看 哪 列 缺失 数据 : 
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X.isnul1() .sum() 


boolean Ek 
City 站 
ordinal_column 0 
quantitative_column 人 
dtype: int64 


可 以 看 见 ， 有 3 列 存在 缺失 值 。 接 下 来 当然 要 填充 这 些 值 。 


你 应 该 还 记得 ， 上 一 章 实现 了 scikit-learn 的 Imputer 类 ， 用 于 填充 数值 数据 。Imputer 的 
确 有 一 个 most_frequent 方法 可 以 用 在 定性 数据 上 ， 但 是 只 能 处 理 整数 型 的 分 类 数据 。 


我 们 不 一 定 想 这 样 做 , 因为 这 种 转换 会 改变 我 们 对 分 类 数据 的 解释 方式 。 因 此 我 们 要 写 一 个 
自己 的 转换 器 ， 也 就 是 一 个 填充 每 列 缺失 值 的 方法 。 


实际 上 , 本章 将 构建 好 几 个 自 定义 转换 器 。 这 些 转换 兢 对 转换 数据 帮助 很 大 ， 而且 可 以 进行 
Pandas 和 scikit-learn 不 支持 的 操作 。 


我 们 先 从 定性 列 city 开始 。 对 于 数值 数据 ， 可 以 通过 计算 均值 的 方法 填充 缺失 值 ; 而 对 于 
分 类 数据 ， 我 们 也 有 类 似 的 处 理 方法 : 计算 出 最 常见 的 类 别 用 于 填充 。 


为 此 ， 需 要 找 出 city 列 中 最 常见 的 类 别 。 
注意 ， 要 对 这 个 列 使 用 value_counts 方法 。 这 样 会 返回 一 个 对 象 ， 由 高 到 低 
包含 列 中 的 各 个 元 素 一 一 第 一 个 元 素 就 是 最 常 出 现 的 。 

我 们 只 需要 对 象 中 的 第 一 个 元 素 : 


# 寻找 city 列 中 最 常见 的 元 素 
Xx['city'] .value_ counts().index[0] 


















































2 
' 七 DOKYO 


我 们 注意 到 , tokyo 是 最 频繁 出 现 的 城市 。 知 道 了 应 该 用 哪个 值 来 填充 , 就 可 以 开始 处 理 了 。 
fillna 图 数 可 以 指定 填充 缺失 值 的 方式 : 


# 用 最 常见 的 值 填充 city 列 
X['city'].fillnal(XL'city']l.value_counts().indqex[0]) 


city 列 现在 是 这 样 的 : 




















0 tokyo 
竺 tokyo 
2 london 
3 seattle 
4 san francisco 
5 tokyo 
Name: city, dtype: object 
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很 好 ， 现 在 city 列 没有 缺失 值 了 。 不 过 我 们 的 另 一 个 列 boolean 依然 存在 缺失 值 。 我 们 
不 再 使 用 同样 的 方法 ， 而 是 构建 一 个 自 定义 填充 器 ， 用 来 处 理 分 类 数据 的 填充 。 























4.2.1 自 定义 填充 器 

在 写 代 码 之 前 ， 快 速 回顾 一 下 机 器 学 习 流水 线 : 
口 我 们 可 以 用 流水 线 按 顺 序 应 用 转换 和 最 终 的 预测 器 ; 
口 流水 线 的 中 间 步 又 只 能 是 转换 ， 这 意味 着 它们 必须 实现 fit 和 transfornm 方法 ; 
口 最 终 的 预测 器 只 需要 实现 fit 方法 。 

流水 线 的 目的 是 将 几 个 可 以 交叉 验证 的 步骤 组 装 在 一 起 , 并 设置 不 同 的 参数 。 在 为 每 个 需要 
填充 的 列 构建 好 自 定义 转换 器 后 , 就 可 以 把 它们 传人 流水 线 , 一 口气 转换 好 数据 。 下 面 开始 编写 
第 一 个 自 定义 分 类 填充 器 吧 。 












































4.2.2” 自 定义 分 类 填充 器 


首先 ， 用 scikit-learn 的 TransformerMixin 基 类 创建 我 们 的 自 定义 分 类 填充 器 。 这 个 转换 
器 (以 及 本 章 中 的 其 他 转换 器 ) 会 作为 流水 线 的 一 环 ， 实 现 fit 和 transfornm 方法 。 


下 面 的 代码 会 在 本 章 经 常 出 现 ， 我 们 来 仔细 讲解 : 


from sklearn.base import TransformerMixin 





class CustomCategoryImputer (TransformerMixin): 
def _ init__(self, cols=None): 
self.cols = cols 


def transform(self, df): 
xX = df.copy() 
for col in self.cols: 
X[col] .fillna(X[col] .value_ counts().index[0], inplace=True) 
return X 


问世 在 fi (SeLE,. $j: 
return self 


这 段 代码 做 了 很 多 工作 ， 下 面 逐 行 分 析 。 


(1) 首先 是 一 条 import 语句 : 


from sklearn.base import TransformerMixin 


(2) 继承 scikit-lear 的 TransformerMixin 类 ， 它 包括 一 个 .fit_transform 方法 ， 会 调 


用 我 们 创建 的 . fit 和 .transform 方法 。 这 能 让 我 们 的 转换 器 和 scikit-learn 的 转换 器 保持 结构 
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一 致 。 我 们 初始 化 这 个 自 定义 的 类 : 


class CustomCategoryImputer (TransformerMixin): 
def _ init_ _(self, cols=None): 
self.cols = cols 


(3) 我 们 已 经 对 这 个 自 定义 类 进行 了 实例 化 , 并 用 __init_ 方法 对 属性 进行 了 初始 化 。 在 这 
里 ， 只 需要 初始 化 一 个 实例 属性 self .cols (就 是 我 们 指定 为 参数 的 列 )。 现 在 可 以 构建 fit 
和 transfornm 方法 了 : 


def transform(self, df): 
X: = df.Gopy() 
for col in self COLls: 
X[col] .fillna(X[col] .value_ counts().index[0], inplace=True) 
return X 
































(4) 上 面 是 transform 方法 ， 它 接收 一 个 DataFrame。 首 先 将 这 个 DataFrame 复制 一 份 ， 命 
名 为 X。 然 后 遍历 cols 参数 指定 的 列 ， 填 充 缺失 值 。fillna 部 分 看 起 来 很 眼熟 ， 因 为 这 个 函 
数 在 一 开始 的 例子 里 用 过 。 我 们 使 用 同样 的 函数 并 进行 设置 , 这 样 一 个 填充 器 可 以 在 很 多 列 上 同 
时 工作 。 缺 失 值 填充 完毕 后 ， 返 回 DataFrame。 然 后 是 fit 方法 : 


def fit(self, *_ ) : 
return self 


我 们 的 fit 方法 只 有 return self 一 句 话 ， 和 scikit-learn 的 标准 .fit 方法 相同 。 
(5) 有 了 自 定义 方法 , 可 以 填充 分 类 数据 了 ! 我 们 在 两 列 分 类 数据 city 和 boolean 上 试验 : 


# 在 列 上 应 用 自 定义 分 类 填充 器 














cci = CustomCategoryImputer(cols=['city', 'boolean']) 


(6) 我 们 初始 化 了 一 个 自 定义 分 类 填充 器 , 现在 需要 在 数据 集 上 调用 fit_transform 孙 数 : 


cci.fit_ transform(X) 


现在 数据 集 如 下 表 所 示 。 











boolean city ordinal_column quantitative_column 
0 yes tokyo somewhat like 1.0 
1 no tokyo like 11.0 
2 no london somewhat like —0.5 
3 no seattle like 10.0 
4 no san francisco somewhat like NaN 
5 yes tokyo dislike 20.0 




















好 极 了 ! 我 们 的 city 和 boolean 列 都 没有 缺失 值 了 。 不 过 定量 列 还 是 有 缺失 值 。 既 然 默 
认 的 填充 天 不 能 选择 列 ， 我 们 再 来 自 定义 一 个 。 
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4.2.3” 自 定义 定量 填充 器 


我 们 使 用 的 结构 和 自 定义 分 类 填充 器 类 似 。 主 要 的 区 别 在 于 , 此 处 用 scikit-leam 的 Imputer 
类 实现 一 个 自 定义 的 转换 项 ， 对 列 进行 转换 : 


# 按 名 称 对 列 进行 转换 的 填充 器 


from sklearn.preprocessing import Imputer 
class CustomOuantitativeImputer (TransformerMixin): 
def __init_ _(self, cols=None, strategy='mean'): 
self.cols = cols 
self.strategy = strategy 


def transform(self, df): 
X=-dF..Copy() 


impute = Imputer (strategy=self.strategy) 
for col in self.cols: 


X[col] = impute.fit transform(X[[col]]) 
return Xx 


def fit (SeLrEy .7)s 
return self 














对 于 customouantitativeImputer， 我 们 添加 了 一 个 strategy 和 参数， 指定 如 何 
量 数据 里 的 缺失 值 。 这 里 用 均值 填充 缺失 值 ， 依 然 使 用 transform 和 fit 方法 。 
还 是 用 fit_transform 函数 填充 数据 ， 这 次 我 们 指定 要 填充 的 列 和 strategy: 


cqi = CustomouantitativeImputer (colLls=['dauantitative_column']， 
strategy='mean') 


过 
也 














I 




















cqi.fit_ transform(Xx) 

也 可 以 不 分 别 调用 并 用 fit transform 拟 合 转换 CustomCategoryImputer 和 Custom- 
QuantitativeImputer， 而 是 把 它们 放 在 流水 线 中 。 方 法 如 下 所 示 。 

(1) 写 import 语句 : 


# 从 sklearn 导入 Pipeline 
from sklearn.pipeline import Pipeline 


(2) 导入 自 定 义 填充 需 : 


imputer = Pipeline([('gquant', cqi), ('category', cci)]) 
imputer.fit_ transform(Xx) 


我 们 看 看 流水 线 填充 后 的 结 
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boolean city ordinal_column quantitative_column 
0 yes tokyo somewhat like 1.0 
1 no tokyo like 11.0 
2 no london somewhat like —0.5 
3 no seattle like 10.0 
4 no san francisco somewhat like 8.3 
5 yes tokyo dislike 20.0 





现在 可 以 在 没有 缺失 值 的 数据 集 上 工作 了 ! 


4.3 ”编码 分 类 变量 

回顾 一 下 , 我 们 目前 已 经 填充 了 数据 集 一 一 包括 定量 列 和 定性 列 。 你 可 能 在 想 : 如 何 让 机 器 
学 习 算法 利用 分 类 数据 呢 ? 

简单 地 说 ， 需 要 将 分 类 数据 转换 为 数值 数据 。 到 目前 为 止 , 我 们 已 经 用 最 常见 的 类 别 对 缺失 
值 进 行 了 填充 。 现 在 需要 进行 进一步 操作 。 

任何 机 器 学 习 算 法 ， 无 论 是 线性 回归 还 是 利用 欧 几 里 得 距离 的 KNN 算法 ， 需 要 的 输入 特征 
都 必须 是 数值 。 有 几 种 办 法 可 以 将 分 类 数据 转换 为 数值 数据 。 


























4.3.1 定 类 等 级 的 编码 


我 们 从 定 类 等 级 开始 。 主 要 方法 是 将 分 类 数据 转换 为 虚拟 变量 ( dummy variable )， 有 两 种 
选择 : 


口 用 Pandas 自动 找到 分 类 变量 并 进行 编码 ; 
口 创建 自 定义 虚拟 变量 编码 器 ， 在 流水 线 中 工作 。 


在 深入 探讨 之 前 ， 我 们 先 研究 一 下 什么 是 虚拟 变量 。 


虚拟 变量 的 取 值 是 1 或 0， 代表 某 个 类 别 的 有 无 。 虚 拟 变量 是 定性 数据 的 代理 ， 或 者 说 是 数 
值 的 替代 。 


考虑 一 个 简单 的 工资 回归 分 析 问 题 。 假 设 给 定 了 性 别 (定性 数据 ) 和 工龄 (定量 数据 )。 为 
了 考察 性 别 对 工资 的 影响 ， 我 们 用 虚拟 变量 : female = 0 代表 男性 ，female = 1 代表 女性 。 


当 使 用 虚拟 变量 时 ， 需 要 小 心虚 拟 变量 陷阱 。 虚 拟 变量 陷阱 的 意思 是 ， 自 变量 有 多 重 共 线性 
或 高 度 相关 。 简单 地 说 , 这 些 变量 能 依据 彼此 来 预测 。 在 这 个 例子 中 , 如 果 设置 female 和 male 
两 个 虚拟 变量 ， 它 们 都 可 以 取 值 为 1 或 0， 那么 就 出 现 了 重复 的 类 别 ， 陷 入 了 虚拟 变量 陷阱 。 我 


们 可 以 直接 推 岂 female = 0 代表 男性 。 
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为 了 避免 虚拟 变量 陷阱 , 我 们 需要 忽略 一 个 常量 或 者 虚拟 类 别 。 被 忽略 的 虚拟 变量 可 以 作为 
基础 类 别 ， 和 其 他 变量 进行 比较 。 


回 到 数据 集中 ， 用 第 一 种 选择 将 分 类 数据 编码 成 虚拟 变量 。Pandas 有 个 很 方便 的 get_Gurmmies 
方法 ， 可 以 找到 所 有 的 分 类 变量 ， 并 将 其 转换 为 虚拟 变量 : 


pd.get_dummies (X， 





columns = ['city'，'boolean']， # 要 虚拟 化 的 列 
prefix_sep='_ _') # 前 级 ( 列 名 ) 和 单元 格 值 之 间 的 分 隔 符 
我 们 必须 指定 需要 应 用 虚拟 化 的 列 ， 因 为 Pandas 也 会 编码 定 序 等 级 的 列 ， 这 就 没有 意义 了 。 

















稍 后 会 提 及 为 什么 这 种 操作 没有 意义 。 
进行 虚拟 变量 编码 后 ， 我 们 的 数据 如 下 表 所 示 。 























ordinal_column quantitative_column city__london ya city__seattle city_ tokyo boolean no boolean yes 
0 somewhat like 1.0 0 0 0 1 0 1 
1 like 11.0 0 0 0 0 1 0 
2 somewhat like —0.5 1 0 0 0 0 0 
3 like 10.0 0 0 1 0 1 0 
4 somewhatlike NaN 0 1 0 0 1 0 
5 dislike 20.0 0 0 0 | 0 1 

i Fe y 、 到 站 
另 一 种 选择 是 创建 一 个 自 定义 虚 拟 化 器 ， 从 而 在 流水 线 中 一 口气 转换 整个 数据 集 。 














再 次 使 用 之 前 两 个 自 定义 填充 器 的 结构 。 在 这 里 , 我 们 的 transform 方法 会 利用 Pandas 的 
get_dqummies 方法 ， 为 指定 的 列 创建 虚拟 变量 。 该 自 定义 虚拟 化 器 中 唯一 的 参数 是 cols: 


# 自 定义 虚拟 变量 编码 器 
class CustomDummifier (TransftormerMixin) : 
def init (self，cols=None) : 
self.cols = cols 











def transform(self, X): 
return pd.get_dummies (xX, columns=self.cols) 


def, :fit/(BelE; A) 
return self 


我 们 的 自 定义 虚拟 化 器 模仿 了 scikit-learn 的 oneHotEncoding, 但 是 可 以 在 整个 DataFrame 
上 运行 。 


最 后 实例 化 自 定义 虚拟 化 器 ， 保 证 后 面 的 代码 可 以 运行 。 运 行 如 下 代码 : 


cd = CustomDummifier(cols=['boolean', 'city']) 





l 








cd.fit_transform(Xx) 


对 原始 数据 进行 虚拟 变量 编码 。 
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4.3.2” 定 序 等 级 的 编码 


现在 我 们 关注 定 序 等 级 的 列 。 这 个 等 级 上 仍然 存在 有 用 的 信息 , 然而 我 们 需要 将 字符 串 转 换 
为 数值 数据 。 在 定 序 等 级 , 由 于 数据 的 顺序 有 含义 , 使 用 虚拟 变量 是 没有 意义 的 。 为 了 保持 顺序 ， 
我 们 使 用 标签 编码 器 。 


标签 编码 器 是 指 ， 顺 序数 据 的 每 个 标签 都 会 有 一 个 相关 数值 。 在 我 们 的 例子 中 , 这 意味 着 顺 
序列 的 值 (dislike、somewhat like 和 1ike) 会 用 0、1、2 来 表示 。 





















































最 简单 的 编码 方法 如 下 : 

# 创建 一 个 列表 ， 顺 序数 据 对 应 于 列表 索引 

ordering = ['dislike', 'somewhat like', 'like'] # 0 是 dislike, 1 是 somewhat like, 2 
是 like 


# 在 将 ordering 映射 到 顺序 列 之 前 ， 先 看 一 下 列 

print (X['ordinal_column']) 

这 里 创建 了 一 个 列表 ,用 于 对 标签 排序 。 这 一 步 是 关键 , 我 们 会 用 其 索引 将 标签 转换 为 数值 
数据 。 

在 列 上 实现 一 个 map 函数 ， 允 许 我 们 指定 需要 在 列 上 实现 的 函数 。 我 们 指定 该 函数 使 用 
lambda 匿名 函数 ， 即 不 绑 定 到 某 个 名 称 : 


lambda x: ordering.index(x) 


这 行 代码 会 创建 一 个 函数 , 将 列表 的 索引 ordering 分 配 到 各 个 元 素 上 。 现在 将 其 映射 到 顺 
序列 上 : 
# 将 ordering 映射 到 顺序 列 


print (Xx['ordinal_column'] .map (lambda x: ordering.index(x))) 


顺序 列 现在 变 成 了 带 标签 的 数据 。 


注意 , 我 们 没有 使 用 scikit-learn 的 LabelEncoder, 因为 这 个 方法 不 能 像 上 面 的 代码 那样 对 
顺序 进行 编码 (0 表示 dislike，1 表示 somewhat 1ike，2 表示 1ike )。 它 默认 是 一 个 排序 方 
法 ， 而 我 们 不 想 这 么 做 。 


还 是 将 自 定义 标签 编码 器 放 进 流水 线 中 : 


class CustomEncoder (TransformerMixin): 
def _ init _(self, col, ordering=None): 
self.ordering = ordering 
SeLf GOL = COTl 















































def transform(self, df): 
pv) 
X[self.col] = X[self.col] .map (lambda x: self.ordering.index(x)) 
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return X 


def :fit (SelEfy: ts 
return self 


我 们 保留 了 之 前 其 他 上 自 定 义 转换 顺 的 结构 。 此 处 用 上 面 详 述 的 map 和 lambga 函数 对 特定 
的 列 进行 转换 。 注 意 ， 关 键 参数 是 ordering， 它 会 指定 将 标签 编码 成 什么 数值 。 


调用 我 们 的 自 定 义 编码 需 : 


ce = CustomEncoder (colLl='ordinal_column'，ordering = ['dislike', 'somewhat like', 
'like']) 


ce.fit transform(Xx) 


转换 后 的 数据 集 如 下 表 所 示 。 




















boolean city ordinal_column quantitative_column 
0 yes tokyo 1 1.0 
1 no None 2 11.0 
2 None london 1 —0.5 
3 no seattle 2 10.0 
4 no san francisco 1 NaN 
5 yes tokyo 0 20.0 
顺序 列 已 经 被 编码 了 。 





到 这 里 ,我们 已 经 转换 了 如 下 这 些 列 。 


口 boolean 和 city: 虚拟 变量 编码 。 
口 ordqinal_column: 标签 编码 。 




















4.3.3 ”将 连续 特征 分 箱 
有 时， 如果 数值 数据 是 连续 的 , 那么 将 其 转换 为 分 类 变量 可 能 是 有 意义 的 。 例 如 你 的 手 上 有 
年 龄 ， 但 是 年 龄 段 可 能 会 更 有 用 。 


Pandas 有 一 个 有 用 的 函数 叫 作 cut ， 可 以 将 数据 分 箱 (binning )， 亦 称 为 分 桶 (bucketing )。 
得 思 就 是 ， 它 会 创建 数据 的 范围 。 


我 们 在 quantitative_column 列 上 看 看 它 的 作用 : 


# 默认 的 类 别名 就 是 分 箱 
pd.cut (Xx['gquantitative column'], bins=3) 


对 于 我 们 的 定量 列 ，cut 函数 的 输出 如 下 : 












































吕 
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0 (05 0233] 
J (G333; “L306 
2 (ORG 333 
3 G6 3 "T3161 
4 NaN 
5 CLI L620.80 


Name: quantitative column, dtype: category 
Categories (3 intervallftloat64]) nl(=0.52,. 60623331 < {6333 T3167] < (13%167;,.200]1] 


当 指 定 的 bins 为 整数 的 时 候 (pins = 3 ), 会 定义 x 范围 内 的 等 客 分 箱 数 。 然 而 在 本 例 中 ， 
x 的 范围 向 两 边 分 别 扩 展 了 0.1%， 以 包括 最 小 值 和 最 大 值 。 

也 可 以 将 标签 设置 为 False， 这 将 只 返回 分 箱 的 整数 指示 带 : 

# 不 使 用 标签 


pd.cut (X['quantitative_column'], bins=3, labels=False) 














quantitative_column 列 的 整数 指示 器 如 下 : 


0 0.0 
和 1.0 
2 0.0 
3 LQ 
4 NaN 
5 D0 


Name: quantitative column, dtype: float64 


利用 cut 函数 的 属性 ， 可 以 为 流水 线 定义 自己 的 customcutter。 再 次 仿照 之 前 转换 器 的 
结构 。 我 们 的 transform 方法 会 利用 cut ， 所 以 需要 bins 和 labels 作为 参数 : 


class CustomCutter (TransformerMiXin) : 
def _ init__(self, col, bins, labels=False): 
self.labels = labels 
self.bins = bins 
self.col = col 








def transform(self, df): 
XxX = df.copy() 
XxX[self.col] = pd.cut (X[self.col], bins=self.bins, labels=self.labels) 
return X 


def fit(self, *_ ) : 
return self 


注意 ，labels 的 默认 值 是 False。 我 们 可 以 初始 化 customcutter, 输入 需要 转换 的 列 和 

















cc = CustomCutter (col='quantitative_ column', bins=3) 


cc.fit_transform(Xx) 


经 过 customCutter 转换 后 的 quantitative_column 列 如 下 表 中 所 示 。 





82 第 4 章 特征 构建 : 我 能 生成 新 特征 吗 








boolean city ordinal_column quantitative_column 
0 yes tokyo somewhat like 1.0 
1 no None like 11.0 
2 None london somewhat like —0.5 
3 no seattle like 10.0 
4 no san francisco somewhat like NaN 
3 yes tokyo dislike 20.0 





注意 ， 现 在 quantitative_column 列 处 于 定 序 等 级 ， 不 需要 引入 虚拟 变量 。 


4.3.4 创建 流水 线 
回顾 一 下 ， 我 们 对 数据 集 里 的 列 进 行 了 以 下 这 些 转换 。 


口 boolean 和 city: 虚拟 变量 编码 。 
口 ordinal_column: 标签 编码 。 
口 quantitative_column: 分 箱 。 


既然 已 经 转换 了 所 有 的 列 ， 就 可 以 组 装 流水 线 了 。 
我 们 从 scikit-learn 的 Pipeline 开始 : 


from sklearn.pipeline import Pipeline 
把 每 列 的 自 定义 转换 器 放 在 一 起 。 我 们 流水 线 的 顺序 是 


(1) 用 imputer 填充 缺失 值 ; 

(2) 用 虚拟 变量 填充 分 类 列 ; 

(3) 对 ordinal_column 进行 编码 ; 
(4) 将 quantitative_column 分 箱 。 


这 样 设置 流水 线 : 


pipe = Pipeline([("imputer", imputer), ('dummify', cd), ('encode', ce), ('cut', cc)]) 
# 先是 imputer 
然后 是 虚拟 变量 
接着 编码 顺序 列 


和 ear -可 


最 后 分 箱 定 量 列 


为 了 观察 流水 线 对 数据 的 完整 转换 ， 我 们 先 看 看 尚未 转换 的 数据 : 


# 进入 流水 线 前 的 数据 
print (x) 


转换 前 的 数据 如 下 表 所 示 。 





















































井 砷 井 
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boolean city ordinal_column quantitative_column 
0 yes tokyo somewhat like 1.0 
1 no None like 11.0 
2 None london somewhat like —0.5 
3 no seattle like 10.0 
4 no san francisco somewhat like NaN 
5 yes tokyo dislike 20.0 
我 们 可 以 对 流水 线 进行 拟 合 : 
# 拟 合 流水 线 
pipe.fit (x) 
Pipeline (memory=None, 
steps=[('imputer', Pipeline (memory=None, 
steps=[('gquant', < _ main .CustomQOuantitativeImputer object at Ox7falf85e96a0>), 
('category', <_ main .CustomCategoryImputer object at Ox7falf85d9ef0>)])), 
('dummify', <_ main .CustomDummifier object at 0x7falf7b51358>), ('encode', 
<_ main .CustomEncoder object at Ox7falf7ba0cc0>), ('cut', <_ main .CustomCutter 
object at Ox7falf7ba0e48>)]) 
创建 流水 线 对 象 后 ， 可 以 转换 DataFrame: 
pipe.transform(Xx) 
， 征 作 一 粮 a 
进行 所 有 转换 后 ， 最 终 的 数据 集 如 下 表 所 示 。 
ordinal_column quantitative_column boolean no boolean _ yes city_london Pye ea city_seattle city_tokyo 
0 1 0 0 1 0 0 0 1 
1 2 1 1 0 0 0 0 1 
2 1 0 ’ 0 1 0 0 0 
3 2 1 1 0 0 0 1 0 
4 1 1 1 0 0 1 0 0 
| 0 六 0 1 0 0 0 1 


4.4 扩展 数值 特征 


有 多 种 办 法 可 以 从 数值 特征 中 创建 扩展 特征 。 之 前 我 们 研究 了 如 何 将 连续 的 数值 数据 转换 为 








T 


顺序 数据 ， 现 在 开始 进一步 扩展 数值 特征 。 
在 深入 研究 前 ， 先 介绍 一 个 新 的 数据 集 。 








Wr 





4.4.1 ”根据 胸部 加 速度 计 识别 动作 的 数据 集 




















这 个 数据 集 来 自 佩戴 在 胸部 的 加 速度 计 , 它 收集 了 15 名 参与 者 的 7 种 动作 。 采 样 频率 是 52 Hz， 


加 速度 计数 据 未 校准 。 
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数据 集 按 参 与 者 划分 ,包含 以 下 内 容 : 


口 序号 ; 
口 x 轴 加 速度 ; 
口 y 轴 加 速度 ; 
口 z 轴 加 速度 ; 
D 标签 。 


标签 是 数字 ， 每 个 数字 代表 一 种 动作 ( activity )， 如 下 所 示 : 


D 在 电脑 前 工作 ; 

口 站 立 、 走 路 和 上 下 楼 梯 ; 
口 站 立 ; 

口 走路 ; 

口 上 下 楼 梯 ; 

口 与 人 边 走边 聊 ; 

口 站 立 着 讲话 。 


关于 这 个 数据 集 的 更 多 信息 ， 请 查询 UCI 机 需 学 习 库 : https://archive.ics.uci.edu/ml/datasets/ 
Activity+Recognition+from+Single+Chest-Mounted+Accelerometer。 


我 们 开始 研究 数据 。 首 先 加 载 CSV 文件 ， 并 设置 每 列 标题 : 












































df = pd.read csv('../data/activity_recognizer/1l.csv', header=None) 

df EOLUNMs es. [ndeR ty TR tL 

用 .head 方法 查看 前 几 行 。 如 果 没 有 特殊 设置 ， 默 认 查 看 前 5 行 。 

df.head() 

结果 如 下 表 所 示 。 

index x y z activity 

0 0.0 1502 2215 2153 1 
I 1.0 1667 2072 2047 1 
和 2 2.0 1611 1957 1906 1 
3 3.0 1601 1939 1831 1 
4 1 


4.0 1643 1965 1879 


这 个 数据 集 的 目的 是 训练 模型 ， 以 便 根据 智能 手机 等 设备 上 加 速度 计 的 x、y、z 读数 识别 
用 户 的 当前 动作 。 根 据 上 述 网 站 可 知 ，activity 列 的 数字 有 如 下 意义 。 


口 1: 在 电脑 前 工作 





4.4 扩展 数值 特征 85 





口 2: 站 立 、 走 路 和 上 下 楼 梯 
口 3: 站 立 

口 4: 走路 

口 5: 上 下 楼 梯 

口 6: 与 人 边 走 边 聊 

口 7: 站 立 着 讲话 


我 们 的 目标 是 预测 activity 列 。 首 先 确 定 要 击败 的 空 准确 率 。 调 用 value_counts 方法 ， 
将 normalize 选项 设 为 True， 以 百分比 的 形式 列 出 最 常见 的 动作 : 


df['activity'] .value_ counts (normalize=True) 


i 




















.DLT9369 
a20W242 
.165291 
.068793 
.019637 
» OQ.95.1 
.005711 
.000006 
Name: activity, dtype: float64 


空 准确 率 是 51.54%， 意 味 着 如 果 我 们 猜 7 ( 站 立 着 讲话 )， 正 确 率 就 超过 一 半 了 。 现 在 开始 
进行 机 器 学 习 ， 一 步 步 建 立 模型 。 


首先 是 import 语句 : 


from sklearn.neighbors import KNeighborsClassifier 
from sklearn.model_ selection import GridaSearchCV 


你 可 能 已 经 熟悉 上 一 章 中 用 过 的 这 些 语句 了 。 我 们 还 是 用 scikit-learn 的 KNN 分 类 模型 。 依 
旧 采 用 网 格 搜索 模块 ， 自 动 找到 最 适合 数据 的 KNN 参数 组 合 ， 以 达到 最 佳 的 交叉 验证 准确 率 。 
然后 ， 为 预测 模型 创建 一 个 特征 矩阵 (x) 和 一 个 响应 变量 Cd 


OND P 和 -J 
A 人 



































X =.df[t["R "YY "3 
# 删除 响应 变量 ,建立 特征 矩阵 
y =-df[l"actiyity'] 








设 定好 X 和 y 之 后 ， 就 可 以 引入 网 格 搜索 所 需 的 变量 和 实例 了 : 
# 网 格 搜索 所 需 的 变量 和 实例 


# 需要 试验 的 KNN 模型 参数 
knn params = {'n_ neighbors':[3, 4, 5, 6]} 


然后 ， 我 们 实例 化 一 个 KNN 模型 和 一 个 网 格 搜索 模块 ， 并 且 用 特征 矩阵 和 响应 变量 拟 合 : 
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knn = KNeighborsClassifier() 
grid = GridSearchCV (knn, knn_params) 
Orids ELt (X,Yy) 


现在 可 以 打印 出 最 佳 准确 率 和 学 习 到 的 参数 了 : 
print (grid.best_score , grid.best params_ ) 
0.720752487676999 {'n_neighbors': 5} 


使 用 5 个 邻居 作为 参数 时 ，KNN 模型 准确 率 达 到 了 72.08%， 比 51.54% 的 空 准确 率 高 得 
也 许 还 有 别 的 办 法 可 以 进一步 提高 准确 率 。 








4.4.2 ”多 项 式 特征 





oO 


在 处 理 数值 数据 、 创 建 更 多 特征 时 ， 一 个 关键 方法 是 使 用 scikit-leam 的 Polynomial- 


























Features 类 。 这 个 构造 函数 会 创建 新 的 列 ， 它们 是 原 有 列 的 乘 陨 ， 用 于 捕获 特征 交互 。 




















更 具体 地 说 ,这 个 类 会 生成 一 个 新 的 特征 和 矩阵， 里 面 是 原始 数据 各 个 特征 的 多 项 式 组 合 ， 阶 








数 小 于 或 等 于 指定 的 阶 数 。 意 思 是 ， 如 果 输 入 是 二 维 的 ， 例 如 [a，b] ， 那 么 二 阶 的 多 项 式 特 生 





就 是 [1,，a, b, a^2, ab, pb^2]。 
1. 参数 
在 实例 化 多 项 式 特征 时 ， 需 要 了 解 3 个 参数 : 





口 degree 


口 Intetraction_ only 





D include bias 


degree 是 多 项 式 特征 的 阶 数 ， 默 认 值 是 2。 



































interaction_only 是 布尔 值 : 如 果 为 真 ， 表示 只 生成 互相 影响 /交互 的 特征 ， 也 就 是 不 同 








阶 数 特征 的 乘积 。 interaction_only 默认 为 false。 











include_pbias 也 是 布尔 值 ， 如 果 为 真 ( 默认 ), 会 生成 一 列 阶 数 为 0 的 偏差 列 ， 也 就 是 说 

















列 中 全 是 数字 1。 


我 们 先导 入 这 个 多 项 式 特征 类 ， 并 设置 参数 来 实例 化 。 首 先 看 看 将 interaction_only 设 











成 False 时 的 数据 : 


from sklearn.preprocessing import PolynomialFeatures 


poly = PolynomialFeatures (degree=2, include bias=False, interaction only=False) 


然后 调用 fit_transform 函数 ， 拟 合 多 项 式 特征 ， 并 观察 扩展 后 数据 集 的 形状 : 
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X_poly = poly.fit_transform(X) 
X_poly.shape 


(L62001 “9 
现在 的 数据 集 有 162 501 行 和 9 列 。 


把 数据 放 进 DataFrame， 将 列 标题 设置 为 feature_names， 查 看 前 几 行 : 

















pd.DataFrame (X_poly, columns=poly.get_feature names()).head() 
结果 如 下 表 所 示 。 
x0 X1 X2 XO^2 XO X1 x0 X2 X1^2 X1 X2 X2^2 

0 1502.0 2215.0 2153.0 2256004.0 3326930.0 3233806.0 4906225.0 4768895.0 4635409.0 
1 1667.0 2072.0 2047.0 2778889.0 3454024.0 3412349.0 4293184.0 4241384.0 4190209.0 
2 1611.0 1957.0 1906.0 2595321.0 3152727.0 3070566.0 3829849.0 3730042.0 3632836.0 
3 1601.0 1939.0 1831.0 2563201.0 ”3104339.0 2931431.0 3759721.0 3550309.0 3352561.0 
4 1643.0 1965.0 1879.0 2699449.0 3228495.0 3087197.0 3861225.0 3692235.0 3530641.0 


2. 探索 性 数据 分 析 4 


现在 可 以 进行 一 些 探 索性 数据 分 析 了 。 因 为 多 项 式 特征 的 目的 是 更 好 地 理解 原始 数据 的 特征 
交互 情况 ， 所 以 最 好 的 可 视 化 办 法 是 关联 热 图 。 
导入 所 需 的 可 视 化 工具 ， 以 创建 热 图 : 


smatplotlib inline 
import seaborn as sns 


Matplotlib 和 Seaborn 都 是 流行 的 数据 可 视 化 工具 。 我 们 可 以 用 如 下 方法 创建 关联 热 图 : 


sns.heatmap (pd.DataFrame (X_poly, columns=poly.get_feature names()).corr()) 


.corr 是 一 个 可 以 在 DataFrame 上 的 调用 的 函数 , 返回 相关 性 矩阵。 我 们 看 看 特征 交互 情况 ， 
如 下 图 所 示 。 









































<matplotlib.axes. subplots.AxesSubplot at 0xll8cld5d0> 
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热 图 的 颜色 是 基于 值 的 : 颜色 越 深 ,特征 的 相关 性 越 大 。 


目前 ，interaction_only 参数 是 False。 我 们 不 重新 建立 变量 ， 将 参数 设 成 True 试 试 。 








代码 还 是 像 上 面 那 样 。 注 意 唯 一 的 区 别 是 interaction_only 被 设置 成 了 True: 
poly = PolynomialFeatures (degree=2, include bias=False, interaction only=True) 


XxX poly = poly.fit transform(X) 
print (xXx_poly.shape) 


矩阵 有 162 501 行 和 6 列 。 仔 细 观 察 一 下 : 





pd.DataFrame (X_poly, columns=poly.get_feature names()).head!() 
DataFrame 如 下 表 所 示 。 
x0 X1 X2 XO x1 XO X2 X1 X2 

0 1502.0 2215.0 2153.0 3326930.0 3233806.0 4768895.0 
1 1667.0 2072.0 2047.0 3454024.0 3412349.0 4241384.0 
1611.0 1957.0 1906.0 3152727.0 3070566.0 3730042.0 
3 1601.0 1939.0 1831.0 3104339.0 2931431.0 3550309.0 
4 1643.0 1965.0 1879.0 3228495.0 3087197.0 3692235.0 


因为 interaction_only 为 真 ，x0^2、x1^2 和 x2^2 都 消失 了 ， 因 为 这 几 列 不 和 其 他 列 
交互 。 我 们 看 看 相关 性 和 矩阵: 


sns.heatmap (pda.DataFrame (X_poly, columns=poly.get_feature names()).corr()) 


结果 如 下 图 所 示 。 








<matplotlib.axes._ subplots.AxesSubplot at 0xl18d38f50> 
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可 以 看 见 特 征 是 如 何 互 相 影 响 的 。 我 们 还 可 以 用 新 的 多 项 式 特征 对 KNN 模型 进行 网 格 搜索 ， 
这 也 可 以 在 流水 线 中 进行 。 


(1) 先 设置 流水 线 参 数 : 
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Pipe_params = {'poly features_ degree':[1, 2, 3], 'poly_features_ _interaction only': 
[True, False], 'classify n neighbors':[3, 4, 5, 6]} 


(2) 然后 实例 化 流水 线 : 


from sklearn.pipeline import Pipeline 





pipe = Pipeline([('poly_features', poly), ('classify', knn)]) 


(3) 最 后 设置 网 格 搜索 ， 打 印 最 佳 准确 率 和 学 习 到 的 参数 : 


grid = GridSearchCV (pipe, pipe_params) 
grid.fit (xXx, y) 














print (grid.best_score , grid.best_ params_ ) 


0.7211894080651812 {'classify_n neighbors': 5，'poly features_ degree': 2， 
'poly_features__interaction only': True} 


现在 的 准确 率 是 72.12%， 比 之 前 不 用 多 项 式 扩展 的 准确 率 有 所 提高 。 


4.5 针对 文本 的 特征 构建 


到 目前 为 止 , 我 们 一 直 在 处 理 分 类 数据 和 数值 数据 。 虽 然 分 类 数据 是 字符 串 , 但 是 里 面 的 文 
本 仅仅 是 某 个 类 别 。 我 们 现在 进一步 探索 更 长 的 文本 数据 。 这 种 文本 数据 比 单个 类 别 的 文本 复杂 
得 多 ， 因 为 长 文本 包括 一 系列 类 别 ， 或 称 为 词 项 ( token )。 


在 进一步 研究 之 前 , 我 们 要 保证 对 文本 有 了 充分 的 理解 。 考 虑 一 下 商户 点 评 服 务 : 用 户 在 平 
台 上 撰写 对 餐厅 和 商家 的 评论 , 分 享 对 自己 体验 的 看 法 。 这 些 评论 都 是 文本 格式 的 , 包含 可 用 于 
机 器 学 习 的 大 量 有 用 信息 ， 例 如 预测 最 应 该 去 的 餐厅 。 

总 体 来 说 , 在 当今 世界 中 , 我 们 沟通 方式 的 很 大 一 部 分 还 是 基于 书面 文本 , 无 论 使 用 的 是 聊 
天 服务 、 社 会 媒体 ， 还 是 电子 邮件 。 通 过 建 模 ， 我 们 可 以 从 中 获得 海量 信息 ， 例 如 用 Twitter 数 
据 进 行情 绪 分 析 。 

这 种 工作 叫 作 自然 语言 处 理 (NLP ，natural language processing )。 这 个 领域 主要 涉及 计算 机 
与 人 类 的 交流 ， 特 别 是 对 计算 机 进行 编程 ， 以 处 理 自然 语言 。 

之 前 提 到 过 ,所 有 的 机 器 学 习 模型 都 需要 数值 输入 。 因 此 处 理 文本 时 需要 有 创造 性 ,有 策略 

四 考 如 何 将 文本 数据 转换 为 数值 特征 。 有 几 个 办 法 可 以 做 到 ， 我 们 开始 学 习 吧 。 














































































































地 上 


4.5.1 词 袋 法 
scikit-learn 有 一 个 feature_extraction 模块 ， 非 常 方便 。 顾 名 思 义 ， 它 能 以 机 器 学 习 算 
法 支持 的 方法 提取 数据 的 特征 ， 包 括 文本 数据 。 这 个 模块 包括 处 理 文本 时 需要 使 用 的 一 些 方法 。 
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接 下 来 ,我 们 可 能 会 将 文本 数据 称 为 语料库 (corpus )， 尤 其 是 指 文本 内 容 或 文档 的 集合 。 

将 语料库 转换 为 数值 表示 ( 也 就 是 向 量化 ) 的 常见 方法 是 词 袋 (bag of words )， 其 背后 的 基 
本 思想 是 : 通过 单词 的 出 现 来 描述 文档 ， 完 全 忽略 单词 在 文档 中 的 位 置 。 在 它 最 简单 的 形式 中 ， 
用 一 个 袋子 表示 文本 , 不 考虑 语法 和 词 序 ， 并 将 这 个 袋子 视 作 一 个 集合 ， 其 中 重复 度 高 的 单词 更 
重要 。 词 袋 的 3 个 步骤 是 : 
口 分 词 (tokenizing ); 
口 计数 (counting ); 
口 归 一 化 (normalizing )。 

首先 介绍 分 词 。 分 词 过 程 是 用 空白 和 标点 将 单词 分 开 , 将 其 变 为 词 项 。 每 个 可 能 出 现 的 词 项 
都 有 一 个 整数 ID。 

然后 是 计数 。 简 单 地 计算 文档 中 词 项 的 出 现 次 数 。 

最 后 是 归 一 化 。 将 词 项 在 大 多 数 文档 中 的 重要 性 按 逆序 排列 。 


下 面 了 解 刀 外 几 个 向 量化 方法 。 



























































4.5.2 CountVectorizer 


CountVectorizer 是 将 文本 数据 转换 为 其 向 量 表示 的 最 常用 办 法 。 和 虚拟 变量 类 似 ， 
CountVectorizer 将 文本 列 转换 为 矩阵 ， 其 中 的 列 是 词 项 ， 单元 值 是 每 个 文档 中 每 个 词 项 的 出 
现 次 数 。 这 个 和 矩阵 叫 文档 - 词 和 矩阵 ( document-term matrix )， 因 为 每 行 代表 一 个 文档 (在 本 例 中 是 
一 条 推 文 )， 每 列 代表 一 个 词 (一 个 单词 )。 


我 们 用 一 个 新 的 数据 集 展示 countVectorizet 的 工作 原理 。Twitter 情感 分 析 数 据 集 包括 
1 578 627 条 分 类 后 的 推 文 ， 每 行 标记 为 1 或 0: 前 者 代表 正面 情绪 ， 后 者 代表 负面 情绪 。 

关于 这 个 数据 集 的 更 多 信息 ， 请 参阅 http://thinknook.com/twitter-sentiment-analysis-training- 
corpus-dataset-2012-09-22。 

我 们 用 Pandas 的 read_csv 方法 读 和 数据。 注意 我 们 指定 了 可 选 参数 encoding， 这 是 为 
了 保证 所 有 的 特殊 字符 都 可 以 正常 处 理 。 


















































tweets = pd.read csv('../data/twitter_ sentiment.csv', encoding='latin1') 
这 样 可 以 正确 读 入 特殊 格式 的 数据 并 处 理 文本 字符 。 
先 看 看 数据 的 前 几 行 : 





tweets.head() 
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结果 如 下 表 所 示 。 





ltemID Sentiment SentimentText 
0 1 0 is So sad for my APL frie... 
1 2 0 I missed the New Moon trail... 
2 3 1 omg its already 7:30 :O 
3 4 0 .. Omgaga. Im Sooo im gunna CRy. 1... 
4 3 0 ithink mibfis cheating on mel!ll .… 





我 们 只 关注 sentiment 和 SentimentText 列 ， 所 以 删除 ItemID 列 : 


del tweets['ItemID'] 





得 到 的 数据 如 下 表 所 示 。 
Sentiment SentimentText 
0 0 is So sad for my APL frie... 
1 0 I missed the New Moon trail... 
2 1 omg its already 7:30 :O 
3 0 .. Omgaga. Im Sooo im gunna CRy. 1’... 
4 0 ithink mi bfis cheating on me!!! ... 





现在 可 以 导入 CountVvectorizer， 更 好 地 理解 这 些 文本 : 


from sklearn.feature extraction.text import CountVectorizer 


然后 设置 Xx 和 y: 


xX = tweets['SentimentText' 
y = tweets['Sentiment'] 


CountVectorizer 和 我 们 一 直 使 用 的 自 定 义 转 换 器 非常 类 似 , 也 有 操作 数据 的 fit_trans- 
form 函数 
Vect = CountVectorizer( 


) 
= vect.fit transform(X) 
Dint(_ .shape) 








{99989, 105849) 
用 countVectorizer 转换 后 ， 数 据 有 99 989 行 和 105 849 列 。 


CountVectorizer 有 很 多 参数 ， 可 以 控制 构建 特征 的 数量 。 下 面 研究 其 中 的 一 些 ， 更 好 地 
了 解 如 何 构建 特征 。 





T 





CountVectorizer 的 参数 


我 们 会 介绍 以 下 几 个 参数 : 
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口 stop_words 
口 min gf 
口 max_df 


D ngram range 





D analyzer 





stop_words 参数 很 常用 。 如 果 向 其 传人 字符 串 english, 那么 countVectorize 会 使 用 内 
置 的 英语 停 用 词 列 表 。 你 也 可 以 自 定义 停 用 词 列 表 。 这 些 词 会 从 词 项 中 删除 ， 不 会 表示 为 特征 。 

例如 : 

vect = CountVectorizer(stop_words='english') # 删除 英语 停 用 词 (IE、a、the， 等 等 ) 


= Vect.fit transform(Xx) 
print (_.shape) 





(99989, 105545) 


可 以 看 见 ， 使 用 英语 停 用 词 后 ， 特 征 列 从 105 849 下 降 到 105 545。 停 用 词 的 意义 在 于 消除 
特征 的 噪声 ， 去 掉 在 模型 中 意义 不 大 的 常用 词 。 


另 一 个 参数 叫 min_af。 它 通过 忽略 在 文档 中 出 现 频率 低 于 阔 值 的 词 ， 减 少 特征 的 数量 。 





























使 用 min_gf 的 CountVvectorizer 如 下 : 

vect = CountVectorizer(min df=.05)  # 只 保留 至 少 在 5% 文档 中 出 现 的 单词 
# 减少 特征 数 

= vect.fit_ transform(x) 

print(_.shape) 

(9.9.9:8.9:7.." .31) 

这 极为 有 效 地 减少 了 特征 数 。 

还 有 一 个 参数 叫 max_qf: 

vect = CountVectorizer(max_df=.8)  # 只 保留 至 多 在 80g 文 档 中 出 现 的 单词 
# “推断 ” 停 用 词 

= vect.fit transform(X) 


Dint(_ .shape) 


(99989，105849) 
这 类 似 于 试图 理解 文档 中 有 哪些 停 用 词 。 


接 下 来 看 看 ngram_range 参数 。 这 个 参数 接收 一 个 元 组 ， 表 示 n 值 的 范围 (代表 要 提取 的 
不 同 n-gram 的 数量 ) 上 下 界 。n-gram 代表 短语 : 若 z2=1， 则 其 是 一 个 词 项 ; 若 2=2， 则 其 代表 
相 邻 的 两 个 词 项 。 可 以 预想 到 ， 这 个 方法 会 显著 地 增加 特征 集 : 
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vect = CountVectorizer(ngram range=(1，5)) # 包括 最 多 5 个 单词 的 短语 
”= Vect.fit transform(X) 
print (_.shape) # 特征 数 爆炸 


(99989, 3219557) 
冒 出 来 了 3219557 个 特征 。 因 为 短语 可 能 有 其 他 含义 ， 所 以 调整 这 个 参数 会 对 建 模 有 帮助 。 
CountVectorizer 还 可 以 设置 分 析 器 作为 参数 ， 以 判断 特征 是 单词 还 是 短语 。 默认 是 单词 : 


vect = CountVectorizer(analyzer='word') # 默认 分 析 器 ， 划 分 为 单词 
= vect.fit transform(X) 
Dint(_ .Shape) 























(99989，105849) 
因为 默认 就 是 划分 为 单词 ， 所 以 特征 列 结果 变化 不 大 。 


我 们 甚至 可 以 创建 自 定义 分 析 器 。 理 论 上 说 , 单词 是 由 词根 或 词 干 构建 而 来 的 ， 所 以 可 以 据 
此 写 一 个 自己 的 分 析 需 。 


词 干 提取 ( stemming ) 是 一 种 常见 的 自然 语言 处 理 方法 ,可 以 将 词汇 中 的 词 干 提取 出 来 , 也 
就 是 把 单词 转换 为 其 词根 ， 从 而 缩小 词汇 量 。NLTK 是 一 个 自然 语言 工具 包 ， 里 面 有 几 个 可 以 处 
理 文本 数据 的 包 ，stemmer 就 是 其 中 之 一 。 


下 面 解释 一 下 stemmer 的 工作 原理 。 
(1) 首先 导入 stemmer， 然 后 初始 化 : 


from nltk.stem.snowball import SnowballStemmer 
stemmer = SnowballStemmer('english') 


(2) 看 看 stemmer 的 效果 : 


stemmer.stem('interesting') 







































































'jnterest' 


(3) 单词 interesting 变 成 了 词根 。 现 在 可 以 用 这 个 方法 创建 函数 ， 将 单词 还 原 为 词根 : 
# 将 文本 变 成 词根 的 函数 


def word_ tokenize(text, how='lemma'): 


words = text.split(' ') # 按 词 分 词 
return [stemmer.stem(word) for word in words] 
(4) 看 看 这 个 函数 的 效果 : 


word_tokenize("hello you are Very interesting") 


['hello', 'you', 'are', 'veri', 'interest'] 
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(5) 将 这 个 分 词 


器 传人 分 析 器 参数 : 


vect = CountVectorizer (analyzer=word_ tokenize) 
= vect.fit_ transform(x) 


print(_.shape 


) # 单词 变 小 ， 特 征 少 了 


(99989;, 154397) 
这 样 处 理 后 的 特征 减少 了 ， 而 且 符 合 直觉 : 我 们 的 词汇 量 已 经 通过 词 干 提取 缩小 了 。 
CountVectorizer 是 一 个 非常 有 用 的 工具 ,不仅 可 以 扩展 特征 ， 还 可 以 将 文本 转换 为 数值 




















特征 。 我 们 再 研究 另 一 个 常用 的 向 量化 需 。 














4.5.3 TF-IDF 向 量化 器 


TF-IDF 向 量化 





器 由 两 部 分 组 成 : 表示 词 频 的 TF 部 分 ， 以 及 表示 逆 文 档 频率 的 IDF 部 分 。 














TF-IDF 是 一 个 用 于 信息 检索 和 聚 类 的 词 加 权 方 法 。 
对 于 语料库 中 的 文档 ，TF-IDF 会 给 出 其 中 单词 的 权重 ， 表 示 重 要 性 。 我 们 把 每 个 部 分 拆 开 





来 看 。 
OD TF (term fr 





equency， 词 频 ): 衡量 词 在 文档 中 出 现 的 频率 。 由 于 文档 的 长 度 不 同 ， 词 在 


长 文中 的 出 现 次 数 有 可 能 比 在 短文 中 出 现 的 次 数 多 得 多 。 因 此 ， 一 般 会 对 词 频 进行 归 一 
化 ， 用 其 除 以 文档 长 度 或 文档 的 总 词 数 。 

口 IDF (inverse documentfrequency， 逆 文档 频率 ): 衡量 词 的 重要 性 。 在 计算 词 频 时 ， 我 
们 认为 所 有 的 词 都 同等 重要 。 但 是 某 些 词 ( 如 is、of 和 that ) 有 可 能 出 现 很 多 次 , 但 这 些 
词 并 不 重要 。 因 此 ， 我 们 需要 减少 常见 词 的 权重 ， 加 大 稀有 词 的 权重 。 




















TfidfVectorizer 





再 次 强调 ，Tfi 














idfvectorizer 和 countvectorizer 相同 ， 都 从 词 项 构造 了 特征 ， 但 是 
进一步 将 词 项 计数 按照 在 语料库 中 出 现 的 频率 进行 了 归 一 化 。 我们 看 一 个 例子 。 





首先 是 导入 语句 : 


from sklearn. 














feature extraction.text import TfidfVectorizer 


还 是 之 前 的 代码 ， 用 countVectorizer 生成 文档 - 词 矩 阵 : 


vect = CountVectorizer() 
= vect.fit_ transform(x) 





print(_.shape 


(99989, 10584 


[0,:] .mean()) 


Ft 


9) 6%61319426730531Le=05. 


按 此 设置 Tfidfvectorizer: 


vect = TfidfVectorizer() 
”= vect.fit_ transform(X) 
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print(_.shape，_[0,:].mean()) # 行列 数 相同 ， 内 容 不 同 
(99989, 105849) 2.1863060975751192e-05 


可 以 看 到 , 两 个 向 量化 器 输出 的 行列 数 相 同 , 但 是 里 面 的 值 不 同 。 这 是 因为 虽然 TfigdfvVectorizer 
和 countVectorizer 都 可 以 把 文本 数据 转换 为 定量 数据 ， 但 是 填充 单元 值 的 方法 不 同 。 
































4.5.4 在 机 器 学 习 流 水 线 中 使 用 文本 


当然 ， 向 量化 器 的 最 终 目 标 都 是 让 机 器 学 习 流 水 线 理解 文本 数据 。 因 为 CountVectorizer 
和 TfidfvVectorizer 与 本 书 中 的 其 他 转换 器 一 样 ， 所 以 要 使 用 scikit-leam 流水 线 保证 机 器 学 习 
流水 线 的 准确 率 和 诚实 度 。 本 例 要 处 理 大 量 的 列 〈 数 十 万 )， 所 以 我 们 使 用 在 这 种 情况 下 更 高 效 
的 分 类 需 一 -朴素 贝 叶 斯 (naive Bayes ) 模型 ; 


from sklearn.naive_bayes import MultinomialNB # 特征 数 多 时 更 快 


在 开始 构建 流水 线 之 前 ， 取 响应 列 的 空 准确 率 (0 是 负面 情绪 ，!1 是 正面 情绪 ): 
# 取 空 准确 率 


y.value_counts (normalize=True) 





















































1 0.564632 
0 0.435368 
Name: Sentiment, dtype: float64 


要 让 准确 率 超过 56.5%。 我 们 分 两 步 创 建 流水 线 : 

口 用 countvectorizezr 将 推 文 变 成 特征 ; 

口 用 朴素 贝 叶 斯 模型 ultiNomialNB 进行 正 负面 情绪 的 分 类 。 
首先 设置 流水 线 的 参数 ， 然 后 实例 化 网 格 搜索 : 

设置 流水 线 参 数 


Pipe_params = {'vect_ ngram range':[(1, 1), (1, 2)], 'vect_ max features':[1000， 
10000], 'vect__stop_words':[None, 'english']} 























实例 化 流水 线 
pipe = Pipeline([('vect', CountVectorizer()), ('classify', MultinomialNB())]) 


实例 化 网 格 搜索 

grid = GridSearchCV (pipe, pipe_params) 
拟 合 网 格 搜索 对 象 

攻守 可 (有 区 ) 











取 结 果 


Print(grid.best_score_，grid.best_params_) 


0.7557531328446129 {'vect_ max_features': 10000, 'vect__ngram range': (1, 2), 
'Vvect__stop_words': None} 
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结果 是 75.6%， 很 不 错 ! 现在 进一步 调 优 ,加 入 Tfidfvectorizer。 这 次 我 们 尝试 新 的 做 
法 ， 比 简单 地 利用 TF-IDF 建立 流水 线 高 级 一 些 。scikit-learn 有 一 个 FeatureUnion 模块 ， 可 以 
水 平 (并排 ) 排列 特征 。 这 样 ， 在 一 个 流水 线 中 可 以 使 用 多 种 类 型 的 文本 特征 构建 器 。 


例如 , 可 以 构建 一 个 featurizer 对 象 , 在 推 文 上 使 用 Tfidfvectorizer 和 CountVvecto- 

















rizer， 并 且 并 排 排列 推 文 ( 行 数 相同 ， 增 加 列 数 ): 


from sklearn.pipeline import FeatureUnion 


# 单独 的 特征 构建 器 对 象 











featurizer = FeatureUnion([('tfidf_ vect', TfidfVectorizer()), ('count_vect', 


CountVectorizer())]) 


然后 可 以 看 见 数据 的 变化 情况 : 


= featurizer.fit_ transform(x) 
print (_.shape) # 行 数 相同 ， 但 列 数 为 2 倍 





(99989, 211698) 











可 以 看 到 ， 结 合 两 个 特征 构建 器 后 的 数据 集 行 数 相同 ， 但 是 因为 Tfidfvectorizer 和 
CountVectorizer 并 排 ， 所 以 列 数 加 倍 。 这 样 做 可 以 让 机 需 学 习 模 型 同时 从 两 组 数据 中 学 习 。 





我 们 稍稍 改变 featurizer 对 象 的 参数 ， 看 看 效果 : 


featurizer.set_params (tfidf_ vect_ max_ features=100, count_vect_ ngram range=(1, 2), 


Count_vect_ max_features=300) 


# TfidfVectorizer 只 保留 100 个 单词 , 而 CountVectorizer 保留 300 个 1 一 2 个 单词 的 短语 


_ = featurizer.fit transform(Xx) 
print (_.shape) # 行 数 相同 ， 但 列 数 为 2 倍 


(99989, 400) 


我 们 建立 一 个 更 完整 的 流水 线 ， 包 括 两 个 向 量化 器 的 特征 结合 : 


Dipe_params = {'featurizer count_ vect ngram range':[(1, 
'featurizer__count_vect_ max_features':[1000, 10000], 
'featurizer count vect__stop words':[None, 'english'], 
'featurizer tfidf vect_ ngram range':[(1, 1), (1, 
'featurizer_ tfidf vect max_ features':[1000, 10000], 
'featurizer tfidf vect_ _stop words':[None, 'english']} 
pipe = Pipeline([('featurizer', featurizer), ('classify', 























grid = GridSearchCV (pipe, pipe_ params) 
Gro, f1t(c; -Y) 
print (grid.best_score_ , grid.best_ params_ ) 


0.758433427677 {'featurizer tfidf vect max_ features': 











'featurizer_ tfidf_ vect_ stop words': 'english', 
'featurizer count vect__stop words': None, 
'featurizer count vect__ngram range': (1, 2),， 





'featurizer__count_vect_ max_features': 10000, 
'featurizer tfidf vect_ ngram range': (1, 1)} 











Ts {Ea 2) 
MultinomialNB())]) 
10000, 
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这 比 单独 使 用 countvectorizer 好 多 了 。 值 得 注意 的 是 ，countvectorizer 的 最 住 
ngram_range 是 (1，2)， 而 TfidfVectorizer 的 是 (1，1) ， 代 表单 个 词 的 出 现 没 有 2 个 单 
词 的 短语 那么 重要 。 


至 此 ， 我 们 知道 以 下 方法 可 以 让 流水 线 更 加 复杂 : 

口 对 向 量化 器 的 几 十 个 参数 使 用 网 格 搜索 ; 

(人 口 在 流水 线 上 添加 步骤 ， 例 如 多 项 式 特征 构造 。 
但 是 对 于 本 书 而 言 这 些 操作 很 麻烦 , 在 大 多 数 笔 记 本 电脑 上 要 跑 好 几 个 小 时 。 你 
可 以 继续 扩大 流水 线 ， 尝 试 超 过 我 们 的 得 分 记录 。 





本 章 的 内 容 很 多 。 文本 有 可 能 很 难处 理 。 在 讽刺 性 语言 、 拼 写 错误 和 词汇 量 大 小 中 间 ,， 数据 
科学 家 和 机 带 学 习 工 程 师 忙 得 不 可 开交 。 这 个 处 理 文本 的 例子 告诉 我 们 , 可 以 用 自己 的 大 型 文本 
数据 集 做 实验 ， 取 得 自己 的 结果 。 


4.6 小结 


目前 , 我 们 学 习 了 如 何在 分 类 数据 和 数值 数据 中 填充 缺失 值 ， 如 何 对 分 类 变量 进行 编码 ， 以 
及 如 何 创 建 自 定义 转换 器 并 拟 合 进 流 水 线 。 此 外 , 还 探讨 了 几 种 针对 数值 数据 和 文本 数据 的 特征 
构建 方法 。 


在 下 一 章 中 ,我们 会 观察 自己 构建 的 特征 ， 并 思考 为 机 带 学 习 模型 选择 合适 特征 的 方法 。 




















特征 选择 ， 对 坏 属性 说 不 











本 书 过 半 , 我 们 处 理 了 十 余 个 数据 集 , 并 学 习 了 大 量 特征 选择 方法 。 作 为 数据 科学 家 和 机 器 
学 习 工 程 师 , 我 们 可 以 在 工作 和 生活 中 利用 这 些 方法 ,以 保证 充分 利用 预测 模型 。 目 前 为 止 , 在 


处 理 数据 方面 ， 我 们 已 经 使 用 了 如 下 方法 。 


口 特征 理解 : 理解 数据 的 等 级 。 

D 特征 增强 : 填充 缺失 值 。 

口 特征 标准 化 和 正则 化 。 

每 个 方法 在 数据 流水 线 中 都 有 一 席 之 地 , 更 常见 的 现象 是 ,我 们 会 串联 两 个 或 多 个 处 理 方法 。 

本 书 剩余 部 分 将 着 重 介绍 特征 工程 中 更 涉及 数学 、 更 加 复杂 的 其 他 一 些 方法 。 随 着 工作 流程 

解 每 个 统计 测试 的 内 部 原理 , 而 是 关注 大 局 ,让 你 理解 测试 要 达到 的 
的 问题 。 



































的 增长 , 我 们 会 尽量 不 去 1 
目标 。 作 为 作者 和 指导 者 ， 我 们 随时 欢迎 你 提出 关于 统计 学 原 到 
讨论 特征 时 经 常 遇 到 噪声 问题 。 通 常 ， 我 们 手 上 的 特征 有 可 能 预测 性 不 高 ， 有 时 甚至 会 阻碍 模 
型 的 预测 性 能 。 我 们 使 用 过 标准 化 和 正则 化 等 方法 来 减轻 其 危害 , 但 是 总 有 一 天 需要 解决 这 种 问题 。 
本 章 会 讨论 特征 工程 的 一 个 子 集 , 称 为 特征 选择 。 特 征 选择 是 从 原始 数据 中 选择 对 于 预测 流 
水 线 而 言 最 好 的 特征 的 过 程 。 更 正式 地 说 ， 给 定 个 特征 ,我们 搜索 其 中 包括 (Kk<n) 个 特征 
的 子 集 来 改善 机 带 学 习 流 水 线 的 性 能 。 一 般 来 说 ,我 们 的 意思 是 : 


特征 选择 尝试 剔除 数据 中 的 噪声 。 
这 个 定义 包括 两 个 需要 解决 的 问题 : 


口 找到 特征 子 集 的 办 法 ; 
口 在 机 器 学 习 中 对 “更 好 ”的 定义 。 

本 章 的 大 部 分 内 容 着 重 讲解 寻找 这 类 子 集 的 方法 , 及 其 工作 原理 的 基础 。 本 章 将 特征 选择 的 
方法 分 为 两 大 类 : 基于 统计 的 特征 选择 ， 以 及 基于 模型 的 特征 选择 。 这 种 分 类 也 许 不 能 100% 捕 
捉 到 特征 选择 在 科学 性 和 艺术 性 上 的 复杂 程度 , 但 是 可 以 推动 机 器 学 习 流水 线 输出 真实 、 可 应 用 
的 结 
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在 深入 探讨 这 些 方 法 之 前 ， 首先 讨论 一 下 如 何 更 好 地 理解 并 定义 “更 好 ”这 个 概念 。 这 个 概 
念 会 贯穿 本 章 力 至 本 书 的 剩余 部 分 。 

本 章 会 涉及 如 下 主题 : 
口 在 特征 工程 中 实现 更 好 的 性 能 ; 
口 创建 基准 机 器 学 习 流 水 线 ; 


口 特征 选择 的 类 型 ; 
口 选用 正确 的 特征 选择 方法 。 




















5.1 在 特征 工程 中 实现 更 好 的 性 能 


在 本 书 中 ， 当 我 们 讨论 特征 工程 的 方法 时 ， 需 要 对 “更 好 ”下 定义 。 实 际 上 ,我 们 的 目标 是 
实现 更 好 的 预测 性 能 ,而 且 仅 使 用 简单 的 指标 进行 测量 , 例如 分 类 任务 的 准确 率 和 回归 任务 的 均 
方 根 误差 ( 大 部 分 是 准确 率 )。 我 们 还 可 以 测量 和 跟踪 其 他 指标 ， 以 评估 预测 的 性 能 。 例 如 ， 分 
类 任务 可 以 使 用 如 下 指标 : 

口 真 阳性 率 和 假 阳 性 率 ; 


口 灵敏 度 ( 真 阳 性 率 ) 和 特异 性 ; 
口 假 阴 性 率 和 假 阳 性 率 。 


回归 任务 则 可 以 使 用 : 
口 平均 绝对 误差 ; 
OR, 
这 个 列表 还 可 以 继续 延长 。 虽然 我 们 不 会 放弃 用 以 上 指标 量化 性 能 的 想法 , 但 是 也 可 以 测量 
其 他 元 指标 。 元 指标 是 指 不 直接 与 模型 预测 性 能 相关 的 指标 ， 它 们 试图 衡量 周遭 的 性 能 ， 包 括 : 


口 模型 拟 合 /训练 所 需 的 时 间 ; 
口 拟 合 后 的 模型 预测 新 实例 的 时 间 ; 
口 需要 持久 化 (永久 保存 ) 的 数据 大 小 。 


这 补充 了 更 好 的 定义 ,因为 这 些 指标 在 预测 性 能 之 外 涵盖 了 机 需 学 习 流水 线 的 更 多 方面 。 为 
了 跟踪 这 些 指标 ,我们 可 以 创建 一 个 函数 , 通用 到 足以 评估 若干 模型 ， 同 时 精细 到 可 以 提供 每 个 
模型 的 指标 。 我 们 会 利用 get_best_model_angd_accuracy 困 数 ， 完成 以 下 任务 ， 
口 搜索 所 有 给 定 的 参数 ， 优 化 机 器 学 习 流 水 线 ; 
口 输出 有 助 于 评估 流水 线 质量 的 指标 。 


我 们 按 如 下 办 法 定义 该 函数 : 
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# 导入 网 格 搜索 模块 


from SKlLlearn.modqel_selection import GridSearchCV 


def get_best_model_and_accuracy (model, params, X, y): 
griqd = GridSearchCV (model，# 要 搜索 的 模型 
params，# 要 尝试 的 参数 
error_score=0.) # 如 果 报 错 ， 结 果 是 0 
gridq.Eit(X，Yy) # 拟 合 模型 和 参数 
# 经 典 的 性 能 指标 
print ("Best Accuracy: {}".format (grid.best_score_) ) 
# 得 到 最 佳 准确 率 的 最 佳 参 数 
print ("Best Parameters: {}".format (grid.best_params_) ) 
# 拟 合 的 平均 时 间 ( 秒 ) 
print ("Average Time to Fit (s): 
{}".format (round (grid.cv_results_['mean fit time'] .mean(), 
# 预测 的 平均 时 间 ( 秒 ) 
# 从 该 指标 可 以 看 出 模型 在 真实 世界 的 性 能 
print ("Average Time to Score (s) 











{}".format (round (grid.cv_results_['mean score time'] .mean(), 








3))) 


3))) 


这 个 函数 的 总 体 目标 是 给 出 一 个 基线 数据 ， 因 为 我 们 会 用 这 个 函数 评估 每 个 特征 选择 方法 ， 
带 来 一 种 标准 化 的 感觉 。 虽然 本 质 上 和 之 前 的 工作 没什么 区 别 ， 但 是 这 次 把 工作 形式 化 成 函数 ， 
而 且 用 另外 的 指标 为 机 器 学 习 流 水 线 和 特征 选择 模块 打分 ， 而 不 是 只 看 准确 率 。 











案例 分 析 : 信用 卡 逾 期 数据 集 
特征 选择 算法 可 以 智能 地 从 数据 中 提取 最 重要 的 信号 并 忽略 噪声 








而 且 模型 可 以 在 重要 的 特征 上 练习 ， 提 高 预测 性 能 。 














让 流水 线 的 整体 速度 更 快 。 


， 达 到 以 下 两 个 结 
口 提升 模型 性 能 : 在 删除 元 余数 据 后 ， 基 于 噪声 和 不 相关 数据 做 出 错误 决策 的 情况 会 减少 ， 


D 减少 训练 和 预测 时 间 : 因为 拟 合 的 数据 更 少 ， 所 以 模型 一 般 在 拟 合 和 训练 上 有 速度 提升 ， 











为 了 更 好 地 理解 噪声 以 及 为 什么 噪声 有 妨碍 作用 , 我 们 介绍 一 个 新 的 数据 集 : 信用 卡 逾 期 数 
据 集 。 我 们 使 用 23 个 特征 和 一 个 响应 变量 。 这 个 变量 是 一 个 布尔 值 , 可 以 是 True( 真 ) 或 False 
〈 假 )。 我 们 想 知 道 ， 能 否 在 23 个 特征 中 找 出 对 机 器 学 习 流 水 线 有 帮助 和 有 害 的 特征 。 用 以 下 代 




















出 


码 导 入 数据 集 : 


import pandas as pd 
import numpy as np 


# 用 随机 数 种 子 保证 随机 数 永远 一 致 


np.random.seed (123) 











先导 入 两 个 常见 模块 numpy 和 pandqas, 并 设置 随机 数 种 子 , 保持 运行 结果 一 致 。 然 后 , 用 





以 下 代码 导入 数据 集 : 
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# archive.ics.uci.edu/ml/datasets/default+of+credit+card+clients 
# 导入 数据 集 


credit_card default = pd.read csv('../data/credit_ card default.csv') 


先进 行 基本 的 探索 性 数据 分 析 。 检 查 一 下 数据 集 的 大 小 ， 代 码 如 下 : 


# 30 000 行 ，24 列 
credit_card_default.shape 


数据 有 30 000 行 (观察 值 ) 和 24 列 (1 个 响应 ，23 个 特征 )。 我们 不 深入 探讨 各 列 的 含义 ， 
但 是 鼓励 读者 到 数据 网 站 http://archive.ics.uci.edu/ml/datasets/default+oftcredittcardt+clients 上 查 
看 。 我 们 先 使 用 传统 的 统计 方法 : 

# 描述 性 统计 

# 调用 .T 方法 进行 转 置 ， 以 便 更 好 地 观察 


credit_card default.describe().T 














输出 如 下 表 所 示 。 
count mean std min 25% 50% 75% max 
LIMIT_BAL 30000.0 167484.322667 129747.661567 10000.0 50000.00 140000.0 240000.00 1000000.0 
SEX 30000.0 1.603733 0.489129 1.0 1.00 2.0 2.00 2.0 
EDUCATION € 30000.0 1.853133 0.790349 0.0 1.00 2.0 2.00 6.0 
MARRIAGE 30000.0 1.551867 0.521970 0.0 1.00 2.0 2.00 3.0 
AGE 30000.0 35.485500 9.217904 21.0 28.00 34.0 41.00 79.0 
PAY_0 30000.0 —0.016700 1.123802 —2.0 一 1.00 0.0 0.00 8.0 
PAY _2 30000.0 —0.133767 1.197186 —2.0 —1.00 0.0 0.00 8.0 
PAY_3 30000.0 —0.166200 1.196868 一 2.0 一 1.00 0.0 0.00 8.0 
PAY 4 30000.0 —0.220667 1.169139 —2.0 —1.00 0.0 0.00 8.0 
PAY_5 30000.0 —0.266200 1.133187 —2.0 一 1.00 0.0 0.00 8.0 
PAY_ 6 30000.0 -0.291100 1.149988 —2.0 一 1.00 0.0 0.00 8.0 


BILL_AMT1 30000.0 51223.330900 73635.860576 -165580.0 3558.75 22381.5 67091.00 ”964511.0 
BILL_AMT2 30000.0 49179.075167 71173.768783 -69777.0 2984.75 21200.0 64006.25 983931.0 
BILL_AMT3 30000.0 “47013.154800 69349.387427 -157264.0 2666.25 20088.5 60164.75 1664089.0 
BILL_AMT4 30000.0 “43262.948967 64332.856134 -170000.0 2326.75 19052.0 54506.00 C891586.0 
BILL_AMTS 30000.0 40311.400967 60797.155770 -81334.0 1763.00 18104.5 50190.50 927171.0 
BILL_AMT6 30000.0 38871.760400 59554.107537 -339603.0 1256.00 17071.0 49198.25 961664.0 


PAY_AMT1 30000.0 5663.580500 16563.280354 0.0 1000.00 2100.0 5006.00 873552.0 
PAY_AMT2 30000.0 5921.163500 23040.870402 0.0 833.00 2009.0 5000.00 1684259.0 
PAY_AMT3 30000.0 5225.681500 17606.961470 0.0 390.00 1800.0 4505.00 891586.0 
PAY_AMT4 30000.0 4826.076867 15666.159744 0.0 296.00 1500.0 4013.25 621000.0 
PAY_AMT5 30000.0 4799.387633 15278.305679 0.0 252.50 1500.0 4031.50 426529.0 
PAY_AMT6 30000.0 5215.502567 17777.465775 0.0 117.75 1500.0 4000.00 528666.0 
default 

payment next 30000.0 0.221200 0.415062 0.0 0.00 0.0 0.00 1.0 


month 
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default payment next month (下 个 月 逾期 ) 是 响应 ， 其 他 都 是 特征 ， 或 者 说 是 潜在 的 
预测 变量 。 很 明显 ， 特 征 的 尺度 迎 异 ， 这 会 是 我 们 选择 数据 处 理 方法 和 模型 时 需要 考虑 的 因素 。 
在 前 面 的 章节 中 ， 我 们 使 用 standardscalar 和 归 一 化 解决 了 这 些 问题 ， 而 本 章 会 忽略 这 些 问 
题 ， 以 便 集中 处理 更 相关 的 问题 。 

















在 本 书 的 最 后 一 章 中 ,我 们 会 关注 几 个 案例 ,几乎 涉及 本 书 介绍 的 、 对 数据 集 进 
行 长 期 分 析 的 所 有 技巧 。 





在 前 几 章 中 我 们 已 经 知道 , 缺失 值 是 一 个 很 大 的 问题 。 因 此 快速 检查 一 下 , 确保 不 存在 缺失 值 : 
# 检查 缺失 值 ， 本 数据 集中 不 存在 


credit_carad_dqefault.isnull().sum() 


LIMIT_BAL 
SEX 
EDUCATION 
MARRIAGE 


BILL AMT1 
BILL AMT2 
BILL AMT3 
BILL AMT4 
BILL AMTS 
BILL AMT6 
PAY_AMT1 
PAY_AMT2 
PAY_AMT3 
PAY_AMT4 
PAY_AMT5 
PAY_AMT6 
default payment next month 
dtype: int64 


太 好 了 , 没有 缺失 值 。 我 们 在 之 后 的 案例 分 析 中 会 再 次 处 理 缺 失 值 , 但 是 现在 有 更 重要 的 事 
情 要 做 。 接 下 来 为 机 需 学 习 流 水 线 设 置 变量 ， 代 码 如 下 : 
# 特征 和 矩阵 


又 = credit_ card default.drop('default payment next month', axis=1) 





Wh DE EN NI Te A A DD. A 





# 响应 变量 
y = credqit_cardq_dqefault['dqefault payment next month'] 





和 往常 一 样 创建 x 和 y 变量 ,x 矩阵 有 30000 行 和 23 列 ,而 y 是 长 度 为 30000 的 Pandas Series。 
因为 要 执行 分 类 任务 ， 所 以 取 一 个 空 准确 率 ， 确保 机 器 学 习 的 性 能 比 基 准 更 好 。 代 码 如 下 : 








5.2 创建 基准 机 器 学 习 流 水 线 103 





# 取 空 准确 率 


y.value_counts (normalize=True) 


0 0.7788 
1 UQ',2212 


本 例 需 要 击败 77.88% 这 个 准确 率 ， 也 就 是 没有 逾期 者 的 比例 〈0 代表 没有 逾期 )。 


5.2 创建 基准 机 器 学 习 流水 线 


在 前 几 章 里 ,我 们 都 提供 了 一 个 全 章 通 用 的 机 融 学 习 模 型 。 在 本 章 中 ， 我 们 会 做 一 些 工 作 ， 
寻找 最 符合 我 们 需求 的 机 器 学 习 模 型 ， 然 后 通过 特征 选择 来 增强 模型 。 先 导入 4 种 模型 


口 逻辑 回归 ; 

口 K 最 近邻 ( KNN); 
口 决策 树 ; 

口 随机 森林 。 


代码 如 下 : 


# 导入 4 种 模型 

from sklearn.linear model import LogisticRegression 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn.tree import DecisionTreeClassifier 
from sklearn.ensemble import RandomForestClassifier 
































导入 后 执行 get_best_model_angd_accuracy 子 数 ， 取 得 每 个 模型 处 理 原始 数据 的 基准 。 
需要 先 建立 一 些 变量 ， 代 码 如 下 : 


为 网 格 搜索 设置 变量 
先 设 置 机 器 学 习 模 型 的 参数 














逻辑 回归 
lr_params = {'C':[le-1, le0, lel, le2], 'penalty':['11', '12']} 
KNN 
knn params = {'n neighbors': [1, 3, 5, 7]} 
决策 树 
tree params = {'max_depth':[None, 1, 3, 5, 7]} 
随机 森林 
forest_params = {'n_ estimators': [10, 50, 100], 'max_depth': [None, 1, 3, 5, 7]} 


如 果 你 不 熟悉 这 些 模型 ， 可 以 阅读 文档 或 《数据 科学 原理 》 一 书 , 里 面包 含有 关 
算法 的 详细 解释 。 
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因为 我 们 通过 函数 设置 模型 , 而 这 会 调用 一 个 网 格 搜索 模型 ,所 以 只 需要 创建 空白 模型 即 可 ， 
代码 如 下 : 


# 实例 化 机 器 学 习 模 型 

lr = LogisticRegression() 

knn = KNeighborsClassifier() 

d_ tree = DecisionTreeClassifier() 
forest = RandomForestClassifier() 


我 们 在 所 有 的 模型 上 运行 评估 函数 ， 了 解 一 下 效果 的 好 坏 。 记 住 ， 我 们 要 击败 的 精确 率 是 
0.7788， 也 就 是 基线 空 准确 率 。 运 行 模 型 的 代码 如 下 : 


get_best_model_angd accuracy (lr, lr_params, X, y) 




















Best Accuracy: 0.809566666667 

Best Parameters: {'penalty': '11', 'C': 0.1} 
Average Time to Fit (s): 0.602 

Average Time to Score (s): 0.002 


可 以 看 见 ， es 用 原始 数据 就 打败 了 空 准确 率 。 它 拟 合 训练 集 平均 需要 0.6s, 而 只 用 














20 ms 就 可 以 得 出 结 其 实 是 有 道理 的 : 要 拟 合 数据 ，scikit-learn 的 逻辑 回归 需要 在 内 存 中 
创建 一 个 巨大 的 和 矩阵， 证 ,预测 时 只 4 需要 相 乘 并 做 一 点 标量 计算 。 
我 们 在 KNN 上 做 同样 的 处 理 : 


get_best_model_angd accuracy (knn，knn_params，X，Y) 





Best Accuracy: 0.760233333333 

Best Parameters: {'n neighbors': 7} 
Average Time to Fit (s): 0.035 
Average Time to Score (s): 0.88 


不 出 所 料 ，KNN 在 拟 合 时 间 上 表现 得 更 好 。 因 为 在 拟 合 时 ，KNN 只 需要 按 方便 检索 和 及 时 
处 理 的 方法 存储 数据 。 注 意 , 这 里 的 准确 率 其 至 不 如 空 准 确 率 ! 你 有 可 能 在 考虑 原因 是 什么 。 如 
果 你 想到 KNN 是 按照 欧 几 里 得 距离 进行 预测 的 ， 在 非 标 准 数据 上 可 能 会 失效 ， 但 是 其 
他 3 个 算法 不 会 受 此 影响 ”， 那 么 你 是 对 的 。 


KNN 是 基于 距离 的 模型 ， 使 用 空间 的 紧密 度 衡量 ， 假 定 所 有 的 特征 尺度 相同 ， 但 是 我 们 知 
道 数据 并 不 是 这 样 。 因 此 对 于 KNN， 我 们 需要 更 复杂 的 流水 线 ， 以 更 准确 地 评估 基准 性 能 。 代 
码 如 下 : 

# 导入 所 需 的 包 


from sklearn.pipeline import Pipeline 
from sklearn.preprocessing import StandardScaler 

































































# 为 流水 线 设 置 KNN 参数 
knn pipe params = {'classifier _{}'.format (k): V for k, Vv in knn params.items()} 


# KNN 需要 标准 化 的 参数 


knn_ pipe = Pipeline([('scale', StandardScaler()), ('classifier', knn)]) 
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# 拟 合 快 ， 预 测 慢 
get_best_model 


and_accuracy (knn_ pipe, knn pipe params, XxX, y) 





print (knn_ pipe params) # {'classifier mn neighbors': [1, 3, 5, 7]} 


Begst ACOUuTRCN 


0.8008 


Best Parameters: {'classifier mn neighbors': 7} 
Average Time to Fit (s): 0.035 
Average Time to Score (s): 6.723 


首先 注意 ,在 用 standardscalar 进行 z 分 数 标 准 化 处 理 后 ， 这 个 流水 线 的 准确 率 至 少 比 














空 准确 率 要 高 ,但 是 这 也 严重 影响 了 预测 时 间 ， 因 为 多 了 一 个 预 处 理 步 又 。 目 前 ， 逻 和 辑 回 归 依然 


领先 : 准确 率 更 高 ， 


get_best_model 








速度 更 快 。 我 们 继续 讨论 两 个 基于 树 的 模型 ， 从 更 简单 的 决策 树 开 始 : 


and_accuracy (d_tree, tree params, X, y) 





Best Accuracy: 


0.820266666667 


Best Parameters: {'max_depth': 3} 
Average Time to Fit (s): 0.158 
Average Time to Score (s): 0.002 


真 厉害 ! 现在 决策 树 的 准确 率 是 第 一 ， 而 且 拟 合 和 预测 的 速度 也 很 快 。 实 际 上 , 决策 树 的 拟 
合 速度 比 逻辑 回归 快 ， 预 测速 度 比 KNN 快 。 我 们 最 后 测试 一 下 随机 森林 ， 代 码 如 下 : 


get_best_model 





and_accuracy (forest, forest_ params, X, y) 





Best Accuradey: 


0.819566666667 


Best Parameters: {'n estimators': 50, 'max_depth': 7} 
Average Time to Fit (s): 1.107 
Average Time to Score (s): 0.044 


比 逻 辑 回归 和 KNN 好 得 多 ,但 是 没有 决策 树 好 。 我 们 汇总 一 下 结果 ， 看 看 应 该 使 用 哪个 


















































模型 。 
模 型 准确 率 〈%) 拟 合 时 间 〈s) 预测 时 间 〈s) 
逻辑 回归 0.8096 0.602 0.002 
KNN ( 带 缩放 ) 0.8008 0.035 6.72 
决策 本 0.8203 0.158 0.002 
随机 森林 0.8196 1.107 0.044 














决策 树 的 准确 率 最 高 ， 并 且 预 测 时 间 和 逻辑 回归 并 列 第 一 ， 而 带 缩放 的 KNN 拟 合 最 快 。 总 











体 而 言 ， 决 策 树 应 该 是 最 适合 下 一 步 采用 的 模型 ， 因 为 它 在 两 个 最 重要 的 指标 上 领先 : 








口 我 们 想 要 最 高 的 准确 率 ， 以 保证 预测 的 准确 性 ; 
口 考虑 到 实时 生产 环境 ， 预 测 时 间 低 大 有 神 益 。 
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我 们 使 用 的 办 法 是 在 选择 特征 之 前 选择 模型 。 虽 然 不 必要 , 但 是 在 时 间 有 限 的 情 
况 下 这 样 做 一 般 很 省 时 。 你 可 以 尝试 多 种 模型 ， 不 必 拘 泥 于 一 个 模型 。 
既然 知道 了 要 使 用 决策 树 ， 那 么 : 


口 要 击败 的 新 基线 准确 率 是 0.8203， 即 拟 合 整 个 数据 集 的 准确 率 ; 
口 不 再 需要 stangdardscaler 了 ， 因 为 决策 树 不 受 其 影响 。 









































5.3 ”特征 选择 的 类 型 


回想 一 下 ,选择 特征 是 为 了 提高 预测 能 力 ， 降低 时 间 成 本 。 所 以 这 里 介绍 两 种 类 型 : 基于 统 
计 和 基于 模型 的 特征 选择 。 基 于 统计 的 特征 选择 很 大 程度 上 依赖 于 机 器 学 习 模 型 之 外 的 统计 测 
试 ， 以 便 在 流水 线 的 训练 阶段 选择 特征 。 基 于 模型 的 特征 选择 则 依赖 于 一 个 预 处 理 步 又 ,需要 训 
练 一 个 辅助 的 机 需 学 习 模 型 ， 并 利用 其 预测 能 力 来 选择 特征 。 


这 两 种 类 型 都 试图 从 原始 特征 中 选择 一 个 子 集 ,减少 数据 大 小 ,只 留 下 预测 能 力 最 高 的 特征 。 
我 们 可 以 依靠 自己 的 智慧 来 选择 特征 , 但 实际 上 通过 每 种 方法 的 例子 对 相应 的 流水 线性 能 进行 测 
量 也 很 有 效 。 


首先 ， 我 们 研究 如 何 依靠 统计 测试 从 数据 集中 选择 可 行 的 特征 。 
























































5.3.1 基于 统计 的 特征 选择 

通过 统计 数据 , 我 们 可 以 快速 、 简 便 地 解释 定量 和 定性 数据 。 前 几 章 使 用 了 一 些 统计 方法 来 
获取 关于 数据 的 新 知识 和 新 看 法 ,特别 是 我 们 认识 到 ,均值 和 标准 差 是 计算 分 数 和 数据 缩放 的 
指标 。 本 章 会 使 用 两 个 新 概念 帮 我 们 选择 特征 : 
口 皮尔 逊 相 关系 数 ( Pearson correlations ); 
口 假设 检验 。 

这 两 个 方法 都 是 单 变量 方法 。 意思 是 ， 如果 为 了 提高 机 器 学 习 流 水 线性 能 而 每 次 选择 单一 特 
征 以 创建 更 好 的 数据 集 ， 这 种 方法 最 简便 。 

1. 使 用 皮尔 逊 相关 系数 

我 们 其 实 已 经 见 过 相关 系数 了 ， 但 并 非 用 于 特征 选择 。 我 们 已 经 知道 ， 可 以 这 样 计算 相关 
系数 : 


credit_cargd default.corr() 


上 面 代码 的 输出 如 下 表 所 示 。 
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LIMIT_BAL SEX EDUCATION MARRIAGE AGE PAY_0 PAY_2 PAY_3 PAY _4 PAY_5 

LIMIT_BAL 1.000000 0.024755 —0.219161 —0.108139 0.144713 —0.271214 —0.296382 —0.286123 —0.267460 -0.249411 
SEX 0.024755 1.000000 0.014232 —0.031389 —0.090874 —0.057643 —0.070771 —0.066096 —0.060173 -0.055064 
EDUCATION —0.21916 0.014232 1.000000 —0.143464 0.175061 0.105364 0.121566 0.114025 0.108793 0.097520 
MARRIAGE —0.108139 —0.031389 —0.143464 1.000000 —0.414170 0.019917 0.024199 0.032688 0.033122 0.035629 
AGE 0.144713 —0.090874 0.175061 —0.414170 1.000000 —0.039447 —0.050148 —0.053048 —0.049722 —0.053826 
PAY_0 —0.271214 —0.057643 0.105364 0.019917 一 0.039447 1.000000 0.672164 0.574245 0.538841 0.509426 
PAY_2 —0.296382 —0.070771 0.121566 0.024199 —0.050148 0.672164 1.000000 0.766552 0.662067 0.622780 
PAY_3 —0.286123 —0.066096 0.114025 0.032688 —0.053048 0.574245 0.766552 1.000000 0.777359 0.686775 
PAY_4 —0.267460 —0.060173 0.108793 0.033122 —0.049722 0.538841 0.662067 0.777359 1.000000 0.819835 
PAY_5 -0.24941 -0.055064 0.097520 0.035629 —0.053826 0.509426 0.622780 0.686775 0.819835 1.000000 
PAY_6 -0.235$195 —0.044008 0.082316 0.034345 —0.048773 0.474553 0.575501 0.632684 0.716449 0.816900 
BILL_AMT1 0.285430 一 0.033642 0.023581 —0.023472 0.056239 0.187068 0.234887 0.208473 0.202812 0.206684 
BILL_AMT2 0.278314 —0.031183 0.018749 —0.021602 0.054283 0.189859 0.235257 0.237295 0.225816 0.226913 
BILL_AMT3 0.283236 —0.024563 0.013002 —0.024909 0.053710 0.179785 0.224146 0.227494 0.244983 0.243335 
BILL_AMT4 0.293988 —0.021880 —0.000451 —0.023344 0.051353 0.179125 0.222237 0.227202 0.245917 0.271915 
BILL_AMT5 0.295562 —0.017005 —0.007567 —0.025393 0.049345 0.180635 0.221348 0.225145 0.242902 0.269783 
BILL_AMT6 0.290389 —0.016733 一 0.009099 -0.021207 0.047613 0.176980 0.219403 0.222327 0.239154 0.262509 
PAY_AMT1 0.195236 一 0.000242 -0.037456 一 0.005979 0.026147 一 0.079269 —0.080701 0.001295 —0.009362 —0.006089 
PAY_AMT2 0.178408 —0.001391 —0.030038 —0.008093 0.021785 —0.070101 —0.058990 一 0.066793 —0.001944 -0.003191 
PAY_AMT3 0.210167 一 0.008597 一 0.039943 —0.003541 0.029247 —0.070561 —0.055901 —0.053311 —0.069235 0.009062 
PAY_AMT4 0.203242 一 0.002229 —0.038218 —0.012659 0.021379 —0.064005 —0.046858 一 0.046067 —0.04346 —0.058299 
PAY_AMT5 0.217202 —0.001667 —0.040358 —0.001205 0.022850 —0.058190 —0.037093 —0.035863 —0.033590 —0.033337 
PAY_AMT6 0.219595 —0.002766 —0.037200 —0.006641 0.019478 —0.058673 —0.036500 —0.035861 —0.026565 —0.023027 
default 

payment next —0.153520 —0.039961 0.028006 —0.024339 0.013890 0.324794 0.263551 0235253 0.216614 0.204149 
month 

















下 面 是 上 表 的 后 半 部 分 。 





























default 
BILL AMT4 BILL AMT5 BILL AMT6 PAY AMT1 PAY AMT2 PAY AMT3 PAY AMT4 PAY AMT5 PAY AMT6 po 
month 
LIMIT_BAL 0.293988 0.295562 0.290389 0.195236 0.178408 0210167 0.203242 0.217202 0.219595 -0.153520 
SEX -0.021880 -0.017005 -0.016733 -0.000242 -0.001391 -0.008597 -0.002229 -0.001667 -0.002766 -0.039961 
EDUCATION -0.000451 -0.007567 -0.009099 -0.037456 -0.030038 -0.039943 -0.038218 -0.040358 -0.037200 0.028006 
MARRIAGE -0.023344 -0.025393 -0.021207 -0.005979 -0.008093 -0.003541 -0.012659 -0.001205 -0.006641 -0.024339 
AGE 0.051353 0.049345 0.047613 0.026147 20.021785 0.029247 0.021379 0.022850 0.019478 0.013890 
PAY _0 0.179125 0.180635 0.176980 -0.079269 -0.070101 -0.070561 -0.064005 -0.058190 -0.058673 ”0.324794 
PAY 2 0.222237 0.221348 0.219403 -0.080701 -0.058990 -0.055901 -0.046858 -0.037093 -0.036500 0.263551 
PAY 3 0.227202 0.225145 0.222327 0.001295 -0.066793 -0.053311 -0.046067 -0.035863 -0.03586 0.235253 
PAY 4 0.245917 0.242902 0.239154 -0.009362 -0.001944 -0.069235 -0.043461 -0.033590 -0.026565 0.216614 
PAY_5 0.271915 0.269783 0.262509 0.006089 -0.003191 -0.009062 -0.058299 -0.033337 -0.023027 0.204149 
PAY_6 0.266356 0.290894 0.285091 -0.001496 -0.005223 0.005834 0.019018 -0.046434 -0.025299 0.186866 
BILL_AMT1 0.860272 0.829779 0.802650 0.140277 0.096355 0.156887 -0.158303 0.167026 0.179341 -0.019644 
BILL AMT2 0.892482 0.859778 0.831594 0.280365 0.100851 0.150718 0.147398 0.157957 0.174256 -0.014193 
BILL_AMT3 0.923969 0.883910 0.853320 0.244335 0.316936 2 0.130011 0.143405 0.179712 0.182326 -0.014076 
BILL_AMT4 1.000000 0.940134 0.900941 0.233012 0.207564 0.300023 0.130191 0.160433 0.177637 -0.010156 
BILL_AMT5 0.940134 1.000000 0.946197 0.217031 0.181246 50.252305 0.293118 0.141574 0.164184 -0.006760 
BILL_AMT6 0.900941 0.946197 1.000000 ”50.199965 0.172663 0.233770 0.250237 0.307729 0.115494 -0.005372 
PAY_AMT1 0.233012 0.217031 0.199965 1.000000 0.285576 0.252191 0.199558 0.148459 0.185735 -0.072929 
PAY_AMT2 0.207564 0.181246 0.172663 0.285576 1.000000 0.244770 0.180107 0.180908 0.157634 -0.058579 
PAY_AMT3 0.300023 0.252305 0.233770 0.252191 0.244770 1.000000 0.216325 0.159214 90.162740 -0.056250 
PAY_AMT4 0.130191 0.293118 0.250237 0.199558 0.180107 0.216325 1.000000 0.151830 0.157834 -0.056827 
PAY_AMT5 0.160433 0.141574 0.307729 0.148459 0.180908 0.159214 20.151830 1.000000 0.154896 -0.055124 
PAY_AMT6 0.177637 0.164184 0.115494 0.185735 0.157634 0.162740 0.157834 0.154896 1.000000 -0.053183 
default 


payment next -0.010156 —0.006760 —0.005372 —0.072929 一 0.058579 一 0.056250 一 0.056827 —0.055124 —0.053183 1.000000 
month 
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皮尔 逊 相关 系数 (是 Pandas 默认 的 ) 会 测量 列 之 间 的 线性 关系 。 该 系数 在 -1 ~ 1 变化 ,0 代 
表 没 有 线性 关系 。 相 关 性 接近 -1 或 1 代表 线性 关系 很 强 。 


值得 注意 的 是 ,皮尔 逊 相 关系 数 要 求 每 列 是 正 态 分 布 的 ( 我们 没有 这 样 假设 ), 在 
很 大 程度 上 ， 我 们 也 可 以 忽略 这 个 要 求 ， 因 为 数据 集 很 大 (超过 500 的 冰 值 ) "。 


Pandas 的 .corr () 方 法 会 为 所 有 的 列 计算 皮尔 逊 相关 系数 。 这 个 24 x 24 的 矩阵 很 难 读 ， 我 
们 用 热 图 优化 一 下 : 


# 用 Seaborn 生成 热 图 
import seaborn as sns 

import matplotlib.style as style 

# 选用 一 个 干净 的 主题 
style.use('fivethirtyeight') 
sns.heatmap (credit_card_ default .corr()) 

















生成 的 热 图 如 下 图 所 示 。 
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注意 ，heatmap 函数 会 自动 选择 最 相关 的 特征 进行 展示 。 不 过 ,我们 目前 关注 特征 和 响应 
变量 的 相关 性 。 我 们 假设 , 和 响应 变量 越 相关 , 特征 就 越 有 用 。 不 太 相 关 的 特征 应 该 没有 什么 用 。 














也 可 以 用 相关 系数 确定 特征 交互 和 宛 余 变量 。 发 现 并 删除 这 些 宛 余 变 量 是 减少 机 
器 学 习 过 拟 合 问题 的 一 个 关键 方法 。 我 们 会 在 5.3.2 节 中 讨论 这 个 问题 。 











用 下 面 的 代码 隔离 特征 和 响应 变量 的 相关 性 : 
# 只 有 特征 和 响应 的 相关 性 


credit_card _ default.corr()['default payment next month'] 





LIMIT_BAL 0 L53520 





@ 根据 中 心 极 限定 理 ， 当 数据 量 足够 大 时 ， 可 以 认为 数据 是 近似 正 态 分 布 的 。 一 一 译 者 注 
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SEX -0.039961 
EDUCATION 0.028006 
MARRIAGE -0.024339 
AGE 0.013890 
PAY_0 0.324794 
PAY_2 026355L 
PAY_3 Qs .23 925 
PAY_4 0.216614 
PAY_5 0.204149 
PAY_6 0.186866 
BILL_AMT1 -0.019644 
BILL_AMT2 -0.014193 
BILL_AMT3 =020140X6 
BILL_AMT4 -0.010156 
BILL_AMT5 -0.006760 
BILL_AMT6 -0.005372 
PAY_AMT1 -0.072929 
PAY_AMT2 0059058579 
PAY_AMT3 -0.056250 
PAY_AMT4 二 90055682 
PAY_AMT5 -0.055124 
PAY_AMT6 =02053183 
default payment next month 1.000000 


Name: default payment next month, dtype: float64 





最 后 一 行 可 以 忽略 ， 因 为 这 是 响应 变量 和 自己 的 相关 性 。 我 们 寻找 相关 系数 接近 -1 或 1 的 


特征 ， 因 为 这 些 特征 应 该 会 对 预测 有 用 。 我 们 用 Pandas 过 滤 出 相关 系数 超过 正 负 0.2 的 特征 。 





先 定义 一 个 Pandas mask 作为 过 滤器 : 
# 只 留 下 相关 系数 超过 正 负 0.2 的 特征 


credit_card default.corr()['default payment next month'] .abs!() 
LIMIT_BAL False 
SEX False 
EDUCATION False 
MARRIAGE False 
AGE False 
PAY_0 True 
PAY_2 True 
PAY_3 True 
PAY_4 True 
PAY_5 True 
PAY_6 False 
BILL_ AMT1 False 
BILL_ AMT2 False 
BILL_AMT3 False 
BILL_ AMT4 False 
BILL_AMTS5 False 
BILL_ AMT6 False 
PAY_AMT1 False 
PAY_AMT2 False 





T 








> 
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PAY_AMT3 False 
PAY_AMT4 False 
PAY_AMT5 False 
PAY_AMT6 False 
default payment next month True 


Name: default payment next month, dtype: bool 


上 面 Pandas Series 中 的 False 代表 特征 的 相关 系数 在 -0.2 ~ 0.2, True 则 代表 相关 系数 超过 
了 正 负 0.2。 我 们 用 下 面 的 代码 结合 这 个 mask: 
# 存储 特征 


highly correlated_ features = 
credit_cargd default.columns[credit_card default.corr()['default payment next 


month'] .abs() > .2] 
highly correlatedq_ features 


Tndext(t[l PAY 0 "PAY 站 有 人 
'default payment next month'], 
dtype='object') 


highly_correlated_features 变量 会 存储 与 响应 变量 高 度 相关 的 特征 , 但 是 需要 删 掉 响 
应 列 的 名 称 ， 因 为 在 机 咒 学 习 流 水 线 中 包括 这 列 等 于 作 次 : 
# 删 掉 响 应 变量 


highly_correlateqd_ features = 
month') 





highly_correlateqd_ features.drop('default payment next 





highly_correlatedqd_ features 








留 下 原始 数据 集 的 5 个 特征 ， 用 于 预测 响应 变量 。 我 们 尝试 一 下 : 


# 只 有 5 个 高 度 关联 的 变量 
XxX_subsetted = X[highly_correlated features] 


get_best_model_angd _ accuracy (d_tree, tree params, X_subsetted, y) 





# 略 差 一 点 ， 但 是 拟 合 快 了 约 20 倍 

Best Accuracy: 0.819666666667 
Best Parameters: {'max_depth': 3} 
Average Time to Fit (s): 0.01 
Average Time to Score (s): 0.002 


我 们 的 准确 率 比 要 击败 的 准确 率 0.8203 略 差 ,但 是 拟 合 时 间 快 了 大 概 20 倍 。 我 们 的 模型 只 
需要 5 个 特征 就 可 以 学 习 整个 数据 集 ， 而 且 速 度 快 得 多 。 

接 下 来 回顾 一 下 scikit-learn 流水 线 , 将 相关 性 选择 作为 预 处 理 阶段 的 一 部 分 。 我 们 需要 创建 
一 个 自 定义 转换 器 调用 刚才 的 逻辑 ， 并 封装 为 流水 线 可 以 使 用 的 类 。 


将 这 个 类 命名 为 customcorrelationchooser， 它 会 实现 一 个 拟 合 逻辑 和 一 个 转换 逻辑 。 





WU 
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口 拟 合 逻 辑 : 从 特征 矩阵 中 选择 相关 性 高 于 阔 值 的 列 。 
口 转换 逻辑 : 对 数据 集 取 子 集 ， 只 包含 重要 的 列 。 


from sklearn.base import TransformerMixin, BaseEstimator 


























class CustomCorrelationChooser (TransformerMixin, BaseEstimator): 
def _ init_ _(self, response, cols_to_ keep=[], threshold=None): 
# 保存 响应 变量 
self.response = response 
# 保存 阅 值 
self.threshold = threshold 
# 初始 化 一 个 变量 ， 存 放 要 保留 的 特征 名 


self.cols_to_ keep = cols_to_keep 





def transform(self，X) : 
# 转换 会 选择 合适 的 列 
return X[self.cols_to_keep] 


def, fit,(SelE, XX ws 
# 创建 新 的 DataFrame， 存 放 特 征 和 响应 
df = pd.concat ([xX, self.response], axis=1) 
# 保存 高 于 阅 值 的 列 的 名 称 
self.cols_to_ keep = df.columns[df.corr() [df.columns[-1]].abs() > 
self.threshold] 
只 保留 X 的 列 ， 删 掉 响 应 变量 
self.cols_ to _ keep = [c for cin self.cols to keep if c in X.columns] 
return self 


运行 下 面 的 代码 试 坛 新 的 相关 特征 选择 器 : 
# 实例 化 特征 选择 器 


ccc = CustomCorrelationChooser (threshold=.2, response=y) 
ccc.fit (x) 








Ccc.cols_to_keep 

['PAY_0', 'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5'] 

这 个 类 的 选择 和 之 前 一 样 。 我 们 在 x 矩阵 上 应 用 转换 ， 代 码 如 下 : 
ccc.transform(X) .head() 


上 面 代码 的 输出 如 下 表 所 示 。 








PAY_0 PAY_2 PAY_3 PAY 4 PAY _5 
0 2 2 -1 -1 3 
1 -1 2 0 0 
2 0 0 0 
3 0 0 0 
4 | 0 -1 0 0 
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我 们 看 见 ，transfornm 方法 删除 了 其 他 列 ， 只 保留 大 于 0.2 靖 值 的 列 。 现 在 在 流水 线 中 把 一 
切 组 装 起 来 : 


from copy import deepcopy 


# 使 用 响应 变量 初始 化 特征 选择 器 


ccc = CustomCorrelationChooser (response=y) 


# 创建 流水 线 ， 包 括 选 择 器 
ccc_pipe = Pipeline([('correlation select', ccc), 
('classifier', d tree)]) 


tree_pipe params = {'classifier max_ depth': 
LNOnmneE:. Ty}, Sr- Dy Tr TOD, TL "3 Dy A, EO 2] 


# 复制 决策 树 的 参数 
ccc_pipe_ params = deepcopy (tree_pipe_params) 


# 更 新 决策 树 的 参数 选择 
ccc_pipe params.update({'correlation select threshold':[0, .1, .2, .3]}) 


print (ccc_pipe params) #{'correlation select threshold': [0, 0.1, 0.2, 0.3], 
"GLaSSTfLIEr. "Mmax depth': [Noniew TL) 3 Sy 7 Or Ty 3p 15% 27 7 L907 21 


# 上 比 原来 好 一 点 ， 而 且 很 快 
get_best_ model_angd accuracy (ccc pipe，ccc_pipe_params，X，Yy) 





Best Accuracy: 0.8206 

Best Parameters: {'correlation select_ threshold': 0.1, 'classifier max_ depth': 5} 
Average Time to Fit (s): 0.105 

Average Time to Score (s): 0.003 


哇 ! ee 么 打败 了 目标 (虽然 只 高 一 点 点 )。 我 们 的 流水 线 显 示 ， 如 果 把 
浆 值 设 为 0.1， 就 足以 消除 噪声 以 提高 准确 性 ， 并 缩短 拟 合 时 间 (之 前 是 0.158 s )。 下 面 看 看 选择 
絮 保 留 了 哪些 列 . 

# 阅 值 是 0.1 

ccc = CustomCorrelationChooser (threshold=0.1, response=y) 

ee 

















# 保留 了 什么 ? 


ccc.cols_to_keep 


['LIMIT_BAL', 'PAY_0', 'PAY 2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6'] 


选择 器 保留 了 我 们 找到 的 5 列 ， 以 及 LIMIT_BAL 和 PAY_6 列 。 这 就 是 scikit-learn 中 自动 化 
网 格 搜索 的 好 处 ， 让 模型 达到 最 优 ， 解 放 我 们 的 劳动 力 。 


2. 使 用 假设 检验 
假设 检验 是 一 种 统计 学 方法 , 可 以 对 单个 特征 进行 复杂 的 统计 检验 。 在 特征 选择 中 使 用 假设 
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念 验 可 以 像 之 前 的 自 定 义 相关 选择 器 一 样 ,尝试 从 数据 集中 选择 最 佳 特征 , 但 是 这 里 的 检验 更 依 
赖 于 形式 化 的 统计 方法 ， 并 通过 所 谓 的 p 值 进行 检验 。 

作为 一 种 统计 检验 ， 假 设 检验 用 于 在 给 定数 据 样本 时 确定 可 否 在 整个 数据 集 上 应 用 某 种 条 
件 。 假设 检验 的 结果 会 告诉 我 们 是 否 应 该 相信 或 拒绝 假设 ( 并 选择 另 一 个 假设 )。 基 于 样本 数据 ， 
假设 检验 会 确定 是 否 应 拒绝 零 假设 "。 我 们 通常 会 用 p 值 (一 个 上 限 为 1 的 非 负 小 数 ， 由 显著 性 
水 平 决定 ) 得 出 结论 。 

在 特征 选择 中 ,假设 测试 的 原则 是 :“ 特 征 与 响应 变量 没有 关系 ”( 零 假设 ) 为 真 还 是 假 。 我 
们 需要 在 每 个 特征 上 进行 检验 ,并 决定 其 与 响应 变量 是 否 有 显著 关系 。 在 某 种 程度 上 说 , 我 们 的 
相关 性 检测 逻辑 也 是 这 样 运作 的 。 我 们 的 意思 是 ,如果 某 个 特征 与 响应 变量 的 相关 性 太 弱 , 那么 
认为 “特征 与 响应 变量 没有 关系 ”这 个 假设 为 真 。 如 果 相 关系 数 足 够 强 ， 那么 拒绝 该 假设 , 认为 
特征 与 响应 变量 有 关 。 


在 将 其 用 于 数据 之 前 ， 需 要 定义 新 模块 selectKBest 和 f_classif， 代码 如 下 : 


SelectKBest 在 给 定 目标 函数 后 选择 下 个 最 高 分 
from sklearn.feature_ selection import SelectKBest 














































































































ANOVA 测试 
from sklearn.feature_ selection import f_classif 


f_classif 可 以 使 用 负数 ， 但 不 是 所 有 类 都 支持 
chi2 ( 卡 方 ) 也 很 常用 ， 但 只 支持 正 数 
回归 分 析 有 自己 的 假设 检验 
SelectKBest 基本 上 就 是 包装 了 一 定数 量 的 特征 ， 而 这 些 特征 是 根据 某 个 标准 保留 的 前 几 
名 。 在 这 里 ， 我 们 使 用 假设 检验 的 p 值 作为 排名 依据 。 


@ 理解 p 值 


万 值 是 介 于 0 和 1 的 小 数 ， 代 表 在 假设 检验 下 ， 给 定数 据 偶然 出 现 的 概率 。 简 而 言 之 , p 值 
越 低 ， 拒 绝 零 假设 的 概率 越 大 。 在 我 们 的 例子 中 ,p 值 越 低 ， 这 个 特征 与 响应 变量 有 关联 的 概率 
就 越 大 ， 我 们 应 该 保留 这 个 特征 。 
































人 如 果 需 要 更 深入 地 理解 统计 测试 ， 请 参阅 《数据 科学 原理 》 























需要 注意 的 是 ，f_classif 函数 在 每 个 特征 上 单独 ( 单 变量 测试 由 此 得 名 ) 执行 一 次 ANOVA 
测试 (一 种 假设 检验 类 型 )， 并 分 配 一 个 p 值 。selectKBest 会 将 特征 按 p 值 排列 ( 越 小 越 好 )， 











也 称 虚无 假设 ,统计 学 中 的 H0。 一 一 译 者 注 
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只 保留 我 们 指定 的 个 最 佳 特征 。" 下 面 我 们 用 Python 试验 一 下 。 
e@ Dp 值 排列 


首先 实例 化 一 个 selectKBest 模块 。 我 们 手动 设 定 上 是 5, 代表 只 希望 保留 5 个 最 佳 的 特征 : 


# 只 保留 最 佳 的 5 个 特征 
k_best = SelectKBest (f_classif, k=5) 


然后 可 以 像 之 前 使 用 自 定义 选择 器 那样 ， 拟 合并 转化 X 和 矩阵， 选择 需要 的 特征 : 


# 选择 最 佳 特 征 后 的 矩阵 
K_pbest .fit_ transform(X，Y) 
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如 果 想 直接 查看 p 值 并 检查 选择 了 哪些 特征 ， 可 以 深入 观察 k_best 变量 : 
# 取 列 的 P 值 


k_best.pvalues_ 





# 特征 和 Pb 值 组 成 DataFrame 





# 按 pp 值 排列 

p_values = pd.DataFrame({'column': X.columns, 'p_value': 
k_best.pvalues_}) .sort_values('p_value') 

# 前 5 个 特征 


p_values.head() 


上 面 代码 的 结果 如 下 表 所 示 。 








column p_value 
5 PAY 0 0.000000e+00 
6 PAY 2 0.000000e+00 
了 PAY 3 0.000000e+00 
8 PAY 4 1.899297e-315 
9 PAY 5 1.126608e-279 








J@ 请 注意 : p 值 不 是 越 小 越 好 ， 且 不 能 互相 比较 。ANOVA 也 有 自己 的 使 用 场景 。 强 烈 建议 希望 详细 了 解 此 内 容 的 读 
者 阅读 George Casella 和 Roger L. Berger 的 《统计 推断 》 一 书 8.3 节 ， 特 别 是 8.3.4 节 。 为 了 理解 此 节 内 容 ， 有 可 
能 需要 选择 性 地 阅读 此 书 第 5、6、7、10 章 的 部 分 内 容 。 如 果 读 者 希望 对 ANOVA 有 更 多 了 解 , 请 阅读 此 书 的 11.2 
节 ; 如 果 和 希望 对 线性 回归 的 假设 检验 有 更 多 了 解 ， 请 阅读 11.3 节 和 12.2 节 。 一 一 译 者 注 
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可 以 看 到 ， 我 们 的 选择 器 认为 PAY_X 是 最 重要 的 特征 。 观 察 p 值 ， 我 们 可 以 看 见 ， 这 些 特 
征 的 p 值 极 小 ， 几 乎 为 0。 rl 见 冰 值 是 0.05， 意 思 是 可 以 认为 p 值 小 于 0.05 的 特征 是 
显著 的 。 对 于 我 们 的 测试 ， 这 些 列 是 极其 重要 的 。 我 们 可 以 用 Pandas 的 过 滤 方 法 ， 查 看 所 有 p 
值 小 于 0.05 的 特征 : 

# 低 p 值 的 特征 


p_values[p_values['p_value'] < .05] 


结果 如 下 表 所 示 。 
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column p_value 
9 PAY 0 0.000000e+00 
6 PAY 2 0.000000e+00 
7 PAY 3 0.000000e+00 
8 PAY 4 1.899297e-315 
9 PAY 5 1.126608e-—279 
10 PAY 6 7.296740e-234 
0 LIMIT BAL 1.302244e-157 
17 PAY AMTI 1.146488e-36 
18 PAY AMT2 3.166657e-24 
20 PAY AMT4 6.830942e-23 
19 PAY AMT3 1.841770e-22 
21 PAY AMT5 1.241345e-21 
22 PAY AMT6 3.033589e-20 
1 SEX 4.395249e—12 
2 EDUCATION 1.225038e-06 
MARRIAGE 2.485364e-—05 
11 BILL AMTI 6.673295e-04 
12 BILL AMT2 1.395736e-02 
13 BILL AMT3 1.476998e-02 
4 AGE 1.61368Se-02 








大 部 分 特征 的 bp 值 都 很 低 ， 但 并 不 是 全 部 。 用 下 面 的 代码 看 看 哪些 列 的 p_value 较 高 : 
# 高 pp 值 的 特征 


p_values[p_values['p_value'] >= .05] 


结果 如 下 表 所 示 。 




















column p_value 
14 BILL AMT4 0.078556 
15 BILL AMTS 0.241634 
16 BILL AMT6 0.352123 


























有 3 个 特征 的 p 值 较 高 。 我 们 可 以 在 流水 线 中 应 用 selectKBest ， 看 看 是 否 效果 更 好 : 
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k_best = SelectKBest (f_classif) 


# 用 SelectKBest 建立 流水 线 
select_k pipe = Pipeline([('k best', k_ best), 
('classifier', d_ tree)]) 


select_k_ best_ pipe params = deepcopy (tree_pipe_params) 
# all 没有 作用 
select_k best _ pipe params.update({'k best k':list (range(1,23)) + ['all']}) 





print (select_k_ best_ pipe params) # {'k_best k': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 
12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 'all'], 'classifier max_depth': [None, 
ee SE < AF 1 eR 0c 





# 与 相关 特征 选择 器 比较 
get_best_ model_and accuracy (select_k pipe, select_k best _ pipe params, X, y) 





Best Accuracy: 0.8206 

Best Parameters: {'K best k': 7, 'classifier max depth': 5} 
Average Time to Fit (s): 0.102 

Average Time to Score (s): 0.002 


selectKBest 模块 和 自 定 义 转换 器 的 准确 率 差不多 ， 但 是 快 了 一 点 。 用 下 面 的 代码 查看 选 
择 了 哪些 特征 : 


k_best = SelectKBest (f_classif, k=7) 


# 最 低 的 7 个 p 值 和 之 前 选择 的 一 样 
# ['LIMIT_BAL', 'PAY_0', 'PAY_ 2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6'] 


p_values.head (7) 


代码 的 结果 如 下 表 所 示 。 





column p_value 

5 PAY 0 0.000000e+00 
6 PAY 0 0.000000e+00 
7 PAY 0 0.000000e+00 
8 PAY 0 1.899297e-315 
9 PAY 0 1.126608e-279 
10 PAY 0 7.296740e-234 
0 LIMIT BAL 1.302244e-157 





看 起 来 和 之 前 统计 方法 的 选择 相同 。 我 们 的 统计 方法 有 可 能 只 是 按 顺 序 选 了 这 7 个 特征 。 
在 ANOVA 之 外 ， 还 有 其 他 的 测试 能 用 于 回归 任务 ,例如 卡 方 检验 等 。 这 些 测试 
在 scikit-learn 的 文档 中 有 所 涉及 。 如 需 进 一 步 了 解 通过 单 变量 测试 进行 特征 选择 ， 
请 参考 scikit-learn 的 文档 : http://scikit-learn.org/stable/modules/feature_selection. 


html#univariate-feature-selection。 
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在 开始 基于 模型 的 特征 选择 前 , 我 们 可 以 进行 一 次 快速 的 完整 性 检查 ， 以 确保 路 线 正确 。 到 
目前 为 止 ,为 了 取得 最 佳 准确 率 , 我 们 已 经 用 了 特征 选择 的 两 种 统计 方法 ,每 次 选择 的 7 个 特征 
都 一 样 。 如 果 选 择 这 7 个 特征 之 外 的 所 有 特征 呢 ?” 是 不 是 流水 线 的 准确 率 会 下 降 ， 流 水 线 会 劣 
化 ? 我 们 来 确认 一 下 。 下 面 的 代码 会 进行 完整 性 测试 : 
完整 性 测试 
用 最 差 的 特征 
the_ worst_of X = X[X.columns.drop(['LIMIT BAL', 'PAY_0', 'PAY 2', 'PAY 3', 'PAY _4', 
'PAY_5', 'PAY_6'])] 




















如 果 选 择 的 特征 特别 差 
性 能 也 会 受 影响 
get_best_model_angd accuracy (d_tree, tree params, the worst_of _ xX, y) 





Best Accuracy: 0.783966666667 
Best Parameters: {'max_dqepth': 5} 
Average Time to Fit (s): 0.21 
Average Time to Score (s): 0.002 


此 ， 如 果 不 选择 之 前 的 7 个 特征 ， 不 仅 准 确 性 会 变 差 ( 几乎 和 空 准确 率 一 样 差 )， 而 且 拟 
合 时 间 也 会 变 慢 。 现 在 我 们 可 以 继续 了 解 下 一 种 特征 选择 方法 了 一 一 基于 模型 的 方法 。 








5.3.2 ”基于 模型 的 特征 选择 


本 节 使 用 统计 方法 和 测试 从 原始 数据 集中 选择 特征 , 以 优化 机 器 学 习 流 水 线 的 预测 性 能 和 时 
间 复 杂 度 。 在 过 程 中 ， 我 们 可 以 亲眼 看 见 特征 选择 的 效果 。 


1. 再 议 自然 语言 处 理 


如 果 你 在 本 章 一 开始 觉得 特征 选择 好 像 不 是 全 新 的 概念 , 而 是 与 相关 系数 和 统计 测试 一 样 熟 
悉 ， 这 不 是 错觉 。 在 第 4 章 , 我 们 介绍 了 scikit-learn 中 CountVectorizer 的 概念 。 该 模块 可 以 
从 文本 中 构建 特征 ， 并 用 于 机 器 学 习 流水 线 。 


CountVectorizer 有 很 多 参数 ， 在 搜索 最 佳 流水 线 时 可 以 调整 。 具 体 来 说 ， 有 以 下 几 个 内 
置 的 特征 选择 参数 。 


口 max_features: 整数 ,设置 特征 构建 器 可 以 记忆 的 最 多 特征 数量 。 要 记忆 的 特征 是 由 一 
个 排名 系统 决定 的 ， 它 依照 词 项 在 语料库 中 的 出 现 次 数 进行 排序 。 

口 min_gf: 浮 点 数 , 为 词 项 在 语料库 中 出 现 的 频率 设 定 下 限 ; 如 果 低 于 该 值 , 则 不 进行 标记 。 
口 max_dqf: 浮 点 数 ， 和 min_af 类 似 ， 设 定 词 项 的 频率 上 限 。 

口 stop_words: 按照 内 置 静 态 列 表 对 词 项 类 型 进行 限制 。 如 果 词 项 在 stop_words 中 ， 
那么 即使 频率 在 min_af 和 max_aqf 人 允许 的 范围 内 ， 也 会 被 省 略 。 


上 一 章 简要 介绍 了 一 个 数据 集 , 旨 在 从 单词 推测 推 文 的 情感 。 我 们 花 一 点 时 间 回 顾 一 下 参数 
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的 使 用 。 首 先 引 入 这 个 推 文 数据 集 : 
# 推 文 数据 集 


tweets = pd.read csv('./twitter_ sentiment.csv', encoding='latinl') 


为 了 唤起 我 们 的 记忆 ， 看 一 下 前 5 条 推 文 : 


tweets.head() 











输出 如 下 表 所 示 。 
ltemID Sentiment SentimentText 
0 1 0 is So sad for my APL frie... 
1 2 0 I missed the New Moon trail... 
2 3 1 omg its already 7:30 :O 
3 4 0 .. Omgaga. Im Sooo im gunna CRy. 1'... 
4 和 0 ithink mibfis cheating on me!!! .… 








我 们 先 创建 一 个 特征 和 一 个 响应 变量 。 回 忆 一 下 ， 因 为 我 们 处 理 的 是 文本 ,所 以 特征 变量 是 
文本 列 ， 而 不 是 二 维 矩 阵 : 


tweets_x, tweets y = tweets['SentimentText'], tweets['Sentiment'] 


可 以 建立 流水 线 ， 并 用 本 章 使 用 过 的 函数 进行 评估 ， 代 码 如 下 : 


from sklearn.feature extraction.text import CountVectorizer 
# 导入 朴素 贝 叶 斯 ， 加 快 处 理 


from sklearn.naive bayes import MultinomialNB 











featurizer = CountVectorizer() 


text_pipe = Pipeline([('featurizer', featurizer), 
('classify', MultinomialNB())]) 





text_pipe params = {'featurizer ngram range':[(1, 2)], 
'featurizer_ max_features': [5000, 10000], 
‘featuiriger .min dE:: [O00 ly S52 3 
'featurizer_ max df': [.7, .8, .9, 1.]} 


get_best_ model_and accuracy (text_pipe, text_pipe_ params, 
tweets_XxX, tweets_y) 





Best Accuracy: 0.755753132845 

Best Parameters: {'featurizer_ min df': 0.0, 'featurizer_ ngram range': (1, 2), 
'featurizer_ max_ df': 0.7, 'featurizer max_ features': 10000} 

Average Time to Fit (s): 5.808 

Average Time to Score (s): 0.957 


数据 不 错 ( 空 准确 率 是 0.564 )， 但 是 上 一 章 使 用 FeatureUnion 模块 来 组 合 TfidfVectorizer 
和 CountVvectorizer， 比 这 次 的 分 数 还 高 。 
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我 们 测试 一 下 新 技术 ， 用 selectKBest 和 CountVectorizer 组 合 一 个 流水 线 。 看 看 这 次 
能 否 不 依赖 内 置 的 countVectorizer 选择 特征 ， 而 是 用 统计 测试 : 


# 更 基础 ， 但 是 用 了 SelectKBest 的 流水 线 
featurizer = CountVectorizer(ngram range=(1, 2)) 








select_k text pipe = Pipeline([('featurizer', featurizer), 
('select_k', SelectKBest () ) ， 
('classify', MultinomialNB())]) 


select_k text_ pipe params = {'select k k': [1000, 5000]} 








get_best_ model_and accuracy (select_k_ text_pipe, 
select_k_ text_pipe_params, 
tweets_X, tweets_y) 


Best Accuracy: 0.755703127344 

Best Parameters: {'select k k': 10000} 
Average Time to Fit (s): 6.927 

Average Time to Score (s): 1.448 


看 起 来 SelectKBest 对 于 文本 数据 效果 不 好 。 如 果 没 有 FeatureUnion, 我们 不 能 达到 上 
一 章 的 准确 率 。 值 得 注意 的 是 ,无 论 使 用 何 种 方式 ， 拟 合 和 预测 的 时 间 都 很 长 : 这 是 因为 统计 单 
变量 方法 在 大 量 特征 〈 例如 从 文本 向 量化 中 获取 的 特征 ) 上 表现 不 佳 。 


2. 使 用 机 器 学 习 选 择 特征 


在 文本 处 理 中 ，countVectorizer 内 置 的 特征 选择 工具 表现 不 错 , 但 是 一 般 处 理 的 是 已 经 5 
有 行列 结构 的 数据 。 我们 已 经 看 到 了 基于 纯 统 计 方法 的 特征 选择 非常 强大 , 现在 研究 如 何 使 用 这 
些 方法 让 机 器 学 习 变 得 更 好 。 本 节 主 要 使 用 的 两 类 模型 是 基于 树 的 模型 和 线性 模型 。 这 两 类 模型 
都 有 特征 排列 的 功能 ， 在 对 特征 划分 子 集 时 很 有 用 。 

在 进一步 研究 前 ,我 们 需要 强调 , 虽然 这 些 方法 的 逻辑 并 不 相同 , 但 是 目标 一 致 : 找到 最 佳 
的 特征 子 集 ,优化 机 器 学 习 流 水 线 。 我 们 要 介绍 的 第 一 个 方法 会 涉及 拟 合 训练 数据 时 算法 ( 例如 
训练 决策 树 和 随机 森林 ) 内 部 指标 的 重要 性 。 

@ 特征 选择 指标 一 一 针对 基于 树 的 模型 

在 拟 合 决策 树 时 ， 决 策 树 会 从 根 节点 开始 ,在 每 个 节点 处 贪 禁地 选择 最 优 分 割 ， 优 化 节点 
纯净 度 指 标 。 默 认 情 况 下 ，scikit-learn 每 步 都 会 优化 基尼 指数 ( gini metric )。 每 次 分 割 时 ， 
模型 会 记录 每 个 分 割 对 整体 优化 目标 的 帮助 。 因 此 ,在 树 形 结构 中 ,这些 指 标 对 特征 重要 性 有 
作用 。 


为 了 进一步 说 明 ， 我 们 拟 合 一 个 决策 树 ， 并 输出 特征 重要 性 ， 如 下 所 示 : 
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# 创建 新 的 决策 树 分 类 器 


tree = DecisionTreeClassifier() 


tree.fit (x, y) 





| 下, 


拟 合 后 ， 可 以 用 feature_importances_ 属 4 


# 注意 : 还 有 其 他 特征 








展示 特征 对 于 拟 合 树 的 重要 性 : 





importances = bd.DataFrame ({'importance': tree.feature importances_, 
'feature':X.columns}) .sort_ values('importance', ascending=False) 


importances .head () 


上 面 代码 的 结果 如 下 表 所 示 。 





feature importance 
5 PAY 0 0.161829 
4 AGE 0.074121 
11 BILL AMTI 0.064363 
0 LIMIT BAL 0.058788 
19 PAY AMT3 0.054911 





上 表 显 示 , 拟 合 中 最 重要 的 特征 是 PAY_0， 和 上 一 章 统 计 模 型 的 结果 相 匹 配 。 更 值得 注意 的 
是 第 2、 第 3 和 第 5 个 特征 ， 这 3 个 特征 在 进行 统计 测试 前 没有 显示 出 重要 性 。 这 意味 着 ， 这 种 
村 征 选择 方法 有 可 能 带 来 一 些 新 的 结果 。 


回想 一 下 ， 之 前 我 们 使 用 scikit-learn 内 置 的 包装 器 SelectKBest ， 基 于 排序 函数 (例如 
ANOVA 的 bp 值 ) 取 前 大 个 特征 。 下 面 会 引入 一 个 新 的 包装 器 SelectFromModel， 和 SelectKBest 
一 样 选取 最 重要 的 前 个 特征 。 但 是 ， 它 会 使 用 机 器 学 习 模 型 的 内 部 指标 来 评 佑 特征 的 重要 性 ， 
不 使 用 统计 测试 的 p 值 。 我 们 用 下 面 的 代码 定义 SelectFromModel: 


# 和 SelectKBest 相似 ， 但 不 是 统计 测试 
from sklearn.feature_ selection import SelectFromModel 


SelectFromModel 和 SelectKBest 相 比 最 大 的 不 同 之 处 在 于 不 使 用 (需要 保留 的 特征 
数 )，selectFromModel 使 用 阔 值 ， 代 表 重 要 性 的 最 低 限度 。 通 过 这 种 方式 ， 这 种 基于 模型 的 
选择 器 可 以 脱离 人 工 筛选 的 过 程 ， 只 保留 与 流水 线 所 需 同等 数量 的 特征 。 我 们 实例 化 这 个 类 : 

# 实例 化 一 个 类 ， 按 照 决策 树 分 类 器 的 内 部 指标 排序 重要 性 ， 选 择 特 征 


select_from model = SelectFromModel (DecisionTreeClassifier(), 
threshold=.05) 
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然后 在 SelectFromModel 上 拟 合 数据 ， 调 用 transfornm 方法 ， 观察 数据 选择 后 的 子 


Selectedq_X = select_from model.fit transform(X, y) 
selectedqd Xx.shape 











(30000, 9) 
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了 解 了 模块 的 基本 原理 后 ， 我 们 可 以 在 流水 线 中 应 用 选择 功能 。 我 们 需要 击败 的 准确 率 是 
0.8206， 之 前 的 相关 性 选择 器 和 ANOVA 都 得 到 了 这 个 准确 率 (因为 选择 的 特征 相同 ): 


# 为 后 面 加 速 
tree_ pipe params = {'classifier max depth': [1, 3, 5, 7]} 





from sklearn.pipeline import Pipeline 


# 创建 基于 DecisionTreeClassifier 的 SelectFromModel 
select = SelectFromModel (DecisionTreeClassifier()) 


select_from pipe = Pipeline([('select', select), 
('classifier', d_ tree)]) 


select_from pipe params = deepcopy (tree_pipe_ params) 








select_from pipe params.updatel({ 





'select__threshold': [.01, .05, .1, .2, .25, .3, .4, .5, .6, "mean", "median", 
"2.*mean"], 
'Select_ estimator max depth': [None, 1, 3, 5, 7] 
} 
print (select_from pipe params) # {'select threshold': [0.01, 0.05, 0.1, 'mean', 
'median', '2.*mean'], 'select_ estimator max_depth': [None, 1, 3, 5, 7], 
'classifier max depth': [1, 3, 5, 7]} 


get_best_model_and_ accuracy (select_from pipe, 
select_from pipe_ params, 
X, y) 








# 没有 比 原来 的 更 好 

Best Accuracy: 0.820266666667 

Best Parameters: {'select_ thresholdq': 0.01，'select__ estimator max_depth': None, 
"classifier max_depth': 3} 

Average Time to Fit (s): 0.192 

Average Time to Score (s): 0.002 


首先 注意 , 我 们 可 以 用 一 些 保 留 字 作为 闪 值 参数 的 一 部 分 , 并 不 是 必须 选择 表示 最 低 重要 性 
的 浮 点 数 。 例 如 ，mean 的 阔 值 只 选择 比 均值 更 重要 的 特征 ，median 的 阀 值 只 选择 比 中 位 数 更 


重要 的 特征 。 我 们 还 可 以 用 这 些 保留 字 的 倍数 ， 例 如 2 . *mean 代表 比 均值 重要 两 倍 的 特征 。 


现在 查看 基于 决策 树 的 选择 器 选 出 了 哪些 特征 , 可 以 使 用 SelectFromModel 的 get_support () 
方法 。 这 个 方法 会 返回 一 个 数组 ， 其 中 的 每 个 布尔 值 代表 一 个 特征 ， 从 而 告诉 我 们 保留 了 哪些 特 
征 ， 如 下 所 示 : 

# 设置 流水 线 最 佳 参数 

select_from pipe.set_params (**{'select_ thresholdq': 0.01, 


'select__estimator max_depth': None, 
'classifier max_depth': 3}) 
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# 拟 合 数据 
select_from pipe.steps[0] [1] .fit (x, y) 


# 列 出 选择 的 列 
XxX.columns [select_from pipe.steps[0] [1] .get_support()] 


[u'LIMIT_BAL', Uu'SEX', u'EDUCATION', u'MARRIAGE', u'AGE', u'PAY_0', u'PAY 2', 
U'PAY_3', u'PAY_6', UuU'BILL AMT1', u'BILL AMT2', u'BILL AMT3', u'BILL AMT4', 
u'BILL AMT5', u'BILL AMT6', u'PAY_AMT1', u'PAY_AMT2', u'PAY_AMT3', u'PAY_AMT4', 
uU'PAY_AMT5', u'PAY_AMT6'] 


这 棵 树 选择 了 除了 两 个 特征 外 的 所 有 其 他 特征 ， 但 是 和 什么 都 不 选 的 树 性 能 没什么 区 别 。 











有 关 决 策 树 以 及 决策 树 如 何 对 基尼 指数 或 炉 进行 拟 合 的 更 多 信息 ， 请 查看 
scikit-learn 的 文档 ， 或 其 他 进行 了 深入 讨论 的 材料 。 


我 们 可 以 继续 尝试 几 种 基于 树 的 模型 ， 例 如 RandomForest ( 随机 森林 ) 和 ExtraTrees- 
classifier (极限 随机 树 ) 等 ,但 是 效果 应 该 比 不 基于 树 的 方法 差 。 


3. 线性 模型 和 正则 化 


SelectFromModel 可 以 处 理 任 何 包 括 feature_importances 或 coef_ 属性 的 机 器 学 习 
模型 。 基 于 树 的 模型 会 暴露 前 者 ,线性 模型 则 会 暴露 后 者 。 在 拟 合 后 ,线性 回归 、 逻 辑 回归 、 支 
持 向 量 机 (SVM，support vector machine ) 等 线性 模型 会 将 一 个 系数 放 在 特征 的 斜率 ( 重要 性 ) 
前 面 。SelectFromMogdel 会 认为 这 个 系数 等 同 于 重要 性 ， 并 根据 拟 合 时 的 系数 选择 特征 。 


然而 ， 在 使 用 模型 之 前 ， 我 们 需要 引入 正则 化 的 概念 ， 以 选择 真正 有 用 的 特征 。 
e@ 正则 化 简介 


在 线性 模型 中 ,正则 化 是 一 种 对 模型 施加 额外 约束 的 方法 ， 目 的 是 防止 过 拟 合 ,并 改进 数据 
泛 化 能 力 。 正 则 化 通过 对 需要 优化 的 损失 函数 添加 额外 的 条 件 来 完成 ， 意 味 着 在 拟 合 时 , 正则 化 
的 线性 模型 有 可 能 严重 减少 甚至 损坏 特征 。 有 两 种 广泛 使 用 的 正则 化 方法 : Ll1 和 1L2 正则 化 。 这 
两 种 技术 都 基于 向 量 的 Lp 范 数 ， 定 义 如 下 : 


n 
£0=, = 


口 L1 正则 化 也 称 为 lasso 正则 化 ,会 使 用 LI 范 数 (参见 上 面 的 公式 ) 将 向 量 条 目 绝对 值 的 
和 加 以 限制 ,使 系数 可 以 完全 消失 。 如 果 系 数 降 为 0, 那么 这 个 特征 在 预测 时 就 没有 任何 
意义 ， 而 且 肯 定 不 会 被 SelectFromModel 选择 。 

口 L2 正则 化 也 称 为 岭 正 则 化 ,施加 惩罚 L2 范 数 (向 量 条 目的 平方 和 )， 让 系数 不 会 变 成 0， 


但 是 会 非常 小 。 
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正则 化 也 有 助 于 解决 多 重 共 线性 的 问题 , 也 就 是 说 , 数据 中 有 多 个 线性 相关 的 特 
0 征 。L1 惩罚 可 以 强制 其 他 线性 相关 特征 的 系数 为 0， 保 证 选择 器 不 会 选择 这 些 
线性 相关 的 特征 ， 有 助 于 解决 过 拟 合 问 题 。 


@ 另 一 个 特征 重要 性 指标 : 线性 模型 参数 
和 之 前 用 树 的 方法 一 样 , 我 们 可 以 用 Ll 和 1L2 正则 化 为 特征 选择 寻找 最 佳 系数 。 我 们 用 逻辑 





回归 模型 作为 选择 器 ， 在 Ll 和 12 范 数 上 进行 网 格 搜索 : 


# 用 正则 化 后 的 逻辑 回归 进行 选择 


logistic_ selector = SelectFromModel (LogisticRegression()) 


# 新 流水 线 ， 用 LogistisRegression 的 参数 进行 排列 
regularization pipe = Pipeline([('select', logistic_ selector), 
('classifier', tree)]) 


regularization pipe params = deepcopy (tree_ pipe params) 


# LDL1 和 L2 正则 化 

regularization pipe params.updatel(l{ 
'select_ threshold': [.01, .05, .1, "mean", "median", "2.*mean"], 
'select__estimator_ penalty': ['11', '12'], 
} 








print (regularization pipe params) # {'select_ threshold': [0.01, 0.05, 0.1, 'mean', 
'median', '2.*mean'], 'classifier max_ depth': [1, 3, 5, 7], 
'select__estimator penalty': ['11', '12']} 


get_best_model_and accuracy (regularization pipe, 5 


regularization pipe_ params, 
X, y) 








# 比 原 来 的 好 ， 实 际 上 是 目前 最 好 的 ， 也 快 得 多 

Best Accuracy: 0.821166666667 

Best Parameters: {'select_ thresholdq': 0.01, 'classifier max_depth': 5, 
'select_ estimator penalty': '11'} 

Average Time to Fit (s): 0.51 

Average Time to Score (s): 0.001 


现在 的 准确 率 终于 超过 统计 测试 选择 器 了 。 再 次 使 用 selectFromModel 的 get_support () 








方法 ， 列 出 选择 的 特征 : 


# 设置 流水 线 最 佳 参数 

regularization pipe.set_params (**{'select_ threshold': 0.01， 
'classifier max_ depth': 5， 
'select estimator penalty': '11'}) 


# 拟 合 数据 
regularization pipe.steps[0] [1] .fit(x, y) 


124 第 $ 章 特征 选择 : 对 坏 属性 说 不 





# 列 出 选择 的 列 

X.columns [regularization pipe.steps[0] [1] .get_support()] 

Index(['SEX', 'EDUCATION', 'MARRIAGE', 'PAY_0', 'PAY 2', 'PAY_ 3', 'PAY_4', 
RAY S|] 


dtype='object') 


非常 好 ! 基于 逻辑 回归 的 选择 器 选择 了 大 部 分 的 PAY_X 特征 ， 也 发 现 了 性 别 、 教 育 和 婚姻 
状况 可 以 帮助 预测 。 接 下 来 用 selectFromModel 模块 在 支持 向 量 机 分 类 器 上 进行 测试 。 


支持 向 量 机 是 分 类 模型 ， 在 空间 中 绘制 线性 边界 ， 对 二 分 数据 进行 分 类 。 这 些 线性 边界 叫 作 
支持 向 量 。 目 前 看 来 ,， 刘 辑 回 归 分 类 恬 和 支持 向 量 分 类 咒 〈(SVC ) 的 最 大 区 别 在 于 ， 后 者 会 最 大 
优化 二 分 类 项 目的 准确 性 ， 而 前 者 对 属性 的 建 模 更 好 。 像 之 前 决策 树 和 逻辑 回归 一 样 ， 我 们 用 
scikit-learn 实现 一 个 线性 SVC 模型 ， 代 码 如 下 : 

# SVC 是 线性 模型 ， 用 线性 支持 在 欧 几 里 得 空间 内 分 割 数据 


# 只 能 分 割 二 分 数据 
from sklearn.svm import LinearSVC 

















# 用 SVC 取 参 数 
svc_selector = SelectFromModel (LinearSVC () ) 


svc_pipe = Pipeline([('select', svc_selector), 
('classifier', tree)]) 


svc_pipe params = deepcopy (tree_ pipe params) 


svc_pipe params .updatel({ 


"SeElect. threshold': [0l; ,i057 m1 "mean";, "median™, "2 *mean™]:; 

'select__estimator penalty': ['11', '12'], 

'select_ estimator loss': ['squared hinge', 'hinge'], 

'select__estimator_ dual': [True, False] 

} 
print (svc_pipe params) # 'select estimator loss': ['squared hinge', 'hinge'], 
'select_ threshold': [0.01, 0.05, 0.1, 'mean', 'median', '2.*mean'], 
'select__estimator penalty': ['11', '12'], 'classifier max depth': [1, 3, 5, 7], 
'select__estimator dual': [True, False]} 


get_best_ model_and accuracy (svc_pipe, 





svc_pipe params, 

X, y) 

# 刷新 了 纪录 
Best Accuracy: 0.821233333333 

Best Parameters: {'select estimator loss': 'squared hinge', 'select_ threshold' : 
0.01, 'select estimator penalty': '11', 'classifier max depth': 5, 


'select__estimator dual': False} 
Average Time to Fit (s): 0.989 
Average Time to Score (s): 0.001 


5.5 小结 125 





太 棒 了 ! SVC 达到 了 最 高 的 准确 率 。 可 以 看 见 拟 合 时 间 受 到 了 影响 , 但 是 如 果 能 把 最 快 的 预 
测 和 最 好 的 准确 率 结合 ， 那 么 机 器 学 习 流 水 线 就 会 很 出 色 了 : 基于 SVC， 利 用 正则 化 为 决策 树 
分 类 器 找到 最 佳 特征 。 下 面 看 看 选择 器 选择 了 哪些 特征 来 达到 目前 的 最 佳 准确 率 : 


# 设置 流水 线 最 佳 参 数 








SVC_pPipe.set_params (**{'select estimator loss': 'squared hinge', 
'select__threshold': 0.01, 
"Select_ estimator penalty': '11', 


'classifier max_ depth': 5, 
'select__estimator_ dual': False}) 


E34 


拟 合 数据 
svc_pipe.steps[0] [1] .fit(xX, y) 


# 列 出 选择 的 列 
XxX.columns [svc_pipe.steps[0] [1] .get_support()] 


[u'SEX', u'EDUCATION', u'MARRIAGE', u'PAY_0', u'PAY_ 2', u'PAY_3', u'PAY_5'] 


与 逻辑 回归 比 ， 唯 一 的 区 别 是 PAY_4 特征 。 但 是 可 以 看 到 ， 移 除 单个 特征 不 会 影响 流水 线 
的 性 能 。 





5.4 ”选用 正确 的 特征 选择 方法 


现在 你 有 可 能 感到 本 章 的 信息 过 多 , 难以 消化 。 我们 演示 了 儿 种 选择 特征 的 方法 , 其 中 一 部 
分 基于 统计 学 , 另 一 部 分 基于 机 器 学 习 模 型 的 二 次 输出 。 一 个 很 自然 的 问题 是 ; 应 该 如 何 选用 特 
征 选 择 方 法 ? 理论 上 说 , 最 理想 的 状况 是 , 你 可 以 像 本 章 这 样 多 次 尝试 , 但 我 们 知道 这 样 是 不 可 
行 的 。 下 面 是 一 些 经 验 ， 可 以 在 判断 特征 选择 方法 的 优 劣 时 参考 。 


口 如 果 特 征 是 分 类 的 ， 那 么 从 selectKBest 开始 ， 用 卡 方 或 基于 树 的 选择 回 。 

口 如 果 特 征 基本 是 定量 的 〈 例如 本 例 )， 用 线性 模型 和 基于 相关 性 的 选择 需 一 般 效 果 更 好 。 
口 如 果 是 二 元 分 类 问题 ， 考虑 使 用 selectFromModel 和 SVC, 因为 SVC 会 查找 优化 二 元 
分 类 任务 的 系数 。 

口 在 手动 选择 前 ， 探 索性 数据 分 析 会 很 有 益处 。 不 能 低估 领域 知识 的 重要 性 。 


这 些 只 是 指导 性 建议 。 作 为 数据 科学 家 ,你 最 终 要 确定 保留 哪些 特征 以 优化 指标 。 本 书 提供 
的 方法 可 以 帮助 你 在 噪声 和 多 重 共 线 性 中 挖掘 潜在 的 特征 。 













































































5.5 小 结 
本 章 涵 盖 了 很 多 关于 选择 特征 子 集 的 方法 ,以 提高 机 器 学 习 流 水 线 的 预测 能 力 , 减少 时 间 复 
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我 们 选择 的 数据 集 特 征 较 少 。 如 果 从 很 多 特征 ( 超过 100 种 ) 中 选择 ,那么 本 章 的 方法 有 可 
能 很 麻烦 。 例如 ,在 尝试 优化 Countvectorizer 时 , 对 每 个 特征 进行 单 变量 测试 的 时 间 是 个 天 
文 数字 ， 而 且 出 于 巧合 的 多 重 共 线性 风险 更 大 。 


在 下 一 童 中 ， 我 们 会 介绍 纯粹 的 数学 转换 ， 用 于 数据 矩阵 中 ， 以 减少 处 理 大 量 特征 的 痛苦 ， 
甚至 解决 一 些 难 以 解释 的 特征 。 我 们 会 开始 使 用 与 之 前 截然 不 同 的 数据 集 , 例如 图 像 数 据 、 主 题 
建 模 数据 ， 等 等 。 
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特征 转换 : 数学 显 和 神通 











到 目前 为 止 , 我 们 似乎 已 经 从 数据 的 所 有 角度 应 用 了 特征 工程 工具 。 从 通过 分 析 表 格 数据 以 
确定 数据 的 等 级 ,到 通过 统计 方法 构建 并 选择 列 以 优化 机 器 学 习 流 水 线 , 我 们 为 处 理 数据 中 的 特 
征 做 了 很 多 了 不 起 的 事 。 


再 次 提醒 : 有 很 多 方法 可 以 增强 机 器 学 习 的 效果 。 我 们 通常 认为 ,最 主要 的 两 个 特征 是 准确 
率 和 预测 / 拟 合 时 间 。 这 意味 着 ， 如 果 利 用 特征 工程 工具 后 ， 机 器 学 习 流 水 线 的 准确 率 在 交叉 验 
证 中 有 所 提高 ， 或 者 拟 合 /预测 的 速度 加 快 ， 那 就 代表 特征 工程 成 功 了 。 当 然 ， 我 们 的 终极 目标 
是 既 优 化 准确 率 又 优化 时 间 ， 构 建 出 更 好 的 流水 线 。 


在 前 面 的 5 章 中 , 我 们 了 解 了 所 谓 的 经 典 特征 工程 。 目 前 , 我 们 已 经 讨论 了 特征 工程 的 5 个 
主要 类 别 / 步 又 。 


口 探索 性 数据 分 析 : 在 应 用 机 器 学 习 流 水 线 ， 甚 至 在 使 用 机 器 学 习 算 法 或 特征 工程 工具 之 
前 ， 我 们 理应 对 数据 集 进行 一 些 基本 的 描述 性 统计 ， 并 进行 可 视 化 操作 ， 以 便 更 好 地 理 
解数 据 的 性 质 。 

D 特征 理解 : 在 了 解 了 数据 的 大 小 和 形状 后 ， 应 该 进一步 仔细 观察 数据 集 的 每 一 列 ( 如 果 

有 可 能 的 话 ) 和 大 臻 特点， 包括 数据 的 等 级 ， 因 为 这 会 决定 如 何 清洗 数据 。 

口 特征 增强 : 这 个 阶段 是 关于 改变 数据 值 和 列 的 ， 我 们 根据 数据 的 等 级 填充 缺失 值 ， 并 按 

需 执行 虚拟 变量 转换 和 缩放 操作 。 

口 特征 构建 : 在 拥有 可 以 得 到 的 最 好 数据 集 之 后 ， 可 以 考虑 构建 新 的 列 ， 以 便 理 解 特征 交 

互 情 况 。 

口 特征 选择 : 在 选择 阶段 ， 用 所 有 原始 和 新 构建 的 列 进行 〈 通常 是 单 变量 ) 统计 测试 ， 选 
取 性 能 最 佳 的 特征 ， 以 消除 噪声 影响 、 加 速 计算 。 


下 图 总 结 了 这 个 过 程 ， 并 展示 了 其 中 的 每 个 步骤 。 
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机 器 学 习 流水 线 
上 图 举例 说 明了 一 个 使 用 上 述 方法 的 机 器 学 习 流 水 线 , 包括 5 个 主要 步骤 : 分 析 、 理 解 、 增 
强 、 构 建 和 选择 。 在 随后 的 章节 中 , 我 们 会 重点 介绍 一 种 转换 数据 的 新 方法 ， 与 之 前 的 体系 有 所 








不 同 。 


读 到 这 里 ,读者 应 该 可 以 对 现实 世界 数据 集 的 性 能 有 合理 的 信心 和 期 望 。 本 章 和 第 7 章 会 专 
注 于 特征 工程 的 两 个 子 集 , 它们 依赖 大 量 的 编程 和 数学 方法 ,特别 是 线性 代数 。 和 之 前 一 样 ,我 
们 会 尽力 解释 用 到 的 所 有 代码 ， 只 在 必要 时 对 数学 进行 解释 。 


本 章 会 涉及 特征 转换 ， 这 是 一 套 改变 数据 内 部 结构 的 算法 ， 以 产生 数学 上 更 优 的 超级 列 
( super-column )。 下 一 章 则 重点 介绍 使 用 非 参数 方法 ( 不 依赖 数据 的 形状 ) 的 特征 学 习 ， 以 自动 
学 习 新 的 特征 。 本 书 的 最 后 一 章 是 几 个 经 过 细致 研究 的 案例 ， 旨 在 展示 特征 工程 的 端 到 端 过 程 ， 
以 及 特征 工程 对 机 器 学 习 流 水 线 的 影响 。 


我 们 首先 讨论 特征 转换 。 上 面 说 到 ， 特 征 转换 是 一 组 矩阵 算法 ,会 在 结构 上 改变 数据 , 产生 
本 质 上 全 新 的 数据 和 矩阵。 其 基本 思想 是 ， 数 据 集 的 原始 特征 是 数据 点 的 描述 符 / 特 点 ， 也 应 该 能 
创造 一 组 新 的 特征 ， 用 更 少 的 列 来 解释 数据 点 ， 并 且 效 果 不 变 ， 甚 至 更 好 。 

想象 一 个 简单 的 长 方形 房间 。 房 间 是 空 的 ， 只 在 中 间 有 一 个 人 体 模 型 。 人 体 模 型 永远 不 会 移 
动 ， 而 且 永 远 面向 一 个 方向 。 你 的 任务 是 全 天 候 监控 这 个 房间 。 你 会 想到 在 房间 里 安装 摄像 头 ， 
确保 房 内 的 所 有 活动 都 被 捕获 并 记录 下 来 。 可 以 把 摄像 头 装 在 房间 角落 ， 对 准 人 体 模 型 的 面部 ， 













































































6.1 


维度 缩减 : 特征 转换 、 特 征 选择 与 特征 构建 


129 








并 且 尽 可 能 包括 房间 的 大 部 分 区 域 。 有 





有 一 台 摄 像 头 就 基本 上 可 以 看 见 整个 房间 的 所 有 区 域 。 不 过 











问题 是 摄像 头 有 盲区 ， 比 如 看 不 到 摄像 头 的 正 下 方 ( 物理 缺陷 ), 而 且 看 不 见 人 体 模型 的 后 面 ( 视 
时 被 遮挡 )。 那 么 ， 可 以 在 人 体 模 型 后 面 再 放 一 个 摄像 头 ， 弥 补 第 一 个 摄像 头 的 育 区 。 坐 在 监控 
室 里 面 ， 用 两 个 摄像 头 可 以 看 见 房间 内 99% 以 上 的 区 域 。 














在 这 个 例子 中 ,房间 表示 数据 的 原始 特征 

















正式 地 说 ， 你 是 在 思考 一 个 带 有 单一 数据 点 的 三 维特 征 空 间 : 








[X, 7, 4] 





用 单个 摄像 头 捕 获 数 据点 时 ， 就 像 把 数据 集 压 人 一 个 维度 ， 即 该 摄像 头 看 见 的 数据 : 





























[X, 7, ZS [C1] 


但 是 只 用 一 个 维度 很 可 能 无 法 充分 描述 数据 ， 因 为 一 个 摄像 涉 有 盲区 。 增 加 一 个 摄像 头 : 

















这 两 个 摄像 头 就 是 特征 转换 形成 的 新 维度 ， 以 一 种 新 的 方式 捕获 数据 , 但 是 只 需 





[X,Y, Zs [C1, C2] 























空间 , 人体 模 型 表示 特征 空间 特定 区 域 上 的 数据 点 。 


要 两 列 而 非 三 列 











就 可 以 提供 足够 的 信息 ,在 特征 转换 中 ,最 棘手 的 部 分 是 一 开始 就 不 认为 原始 特征 空间 是 最 好 的 。 
我 们 需要 接受 一 个 事实 : 可 能 有 其 他 的 数学 坐标 轴 和 系统 能 用 更 少 的 特征 描述 数据 , 甚至 可 以 描 





述 得 更 好 。 


6.1 维度 缩减 : 特征 转换 、 特 征 选择 与 特征 构建 


刚才 ,我 们 提 到 了 如 何 压 缩 数 据 








的 概念 很 类 似 : 从 原始 数据 集中 删除 列 , 通过 消除 噪声 和 增强 信号 列 来 创建 一 个 不 同 而 ] 





? 





用 全 新 的 方法 以 更 少 的 列 描述 数据 。 听 起 来 和 特征 选择 











数据 集 。 虽 然 特征 选择 和 特征 转换 都 是 降 维 的 好 办 法 ， 但 是 它们 的 方法 连 然 不 同 。 








寺 征 选择 仅 限 于 从 原始 列 中 选择 特 和 














F; 特征 转换 算法 则 将 原始 列 组 合 起 来 , 从 而 创建 可 以 更 6 
好 地 描述 数据 的 特征 。 因 此 ， 特 征 选 择 的 降 维 原理 是 隔离 信号 列 和 忽略 噪声 列 。 

















目 更 好 的 


特征 转换 方法 使 用 原始 数据 集 的 隐藏 结构 创建 新 的 列 , 生成 一 个 全 新 的 数据 集 , 结构 与 之 前 
不 同 。 这 些 算 法 创建 的 新 特征 非常 强大 ， 只 需要 几 个 就 可 以 准确 地 解释 整个 数据 集 。 

















特征 转换 的 原理 是 生成 可 以 捕获 数据 本 质 的 新 特 生 
































建新 特征 ， 捕 捉 数 据 的 潜在 结构 。 需 要 注意 ， 





F ,这 一 点 和 特征 构造 的 本 质 类 似 : 都 是 创 








特征 构造 用 几 个 列 之 间 的 简单 操作 〈 加 法 和 乘法 等 ) 构造 新 的 列 。 意 思 是 ， 
程 构造 出 的 任何 特征 都 只 能 用 原始 数据 集中 的 几 个 列 生成 。 如 果 我 们 的 目标 是 创造 足够 多 的 特 











征 ， 捕 获 所 有 可 能 的 特征 交互 ， 那 么 也 许 会 生成 大 量 额 外 的 列 。 例 如 ， 如 果 数 据 集 有 1000 个 其 




















这 两 个 不 同 的 过 程 方法 截然 不 同 ， 











但 是 结 呈 





类 似 。 


经 典 特征 构造 过 
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启 























至 更 多 特征 ， 我 们 要 捕获 所 有 特征 交互 的 一 个 子 集 ， 就 需要 几 万 个 列 来 构建 足够 多 的 特征 。 


寺 征 转换 方法 可 以 用 每 个 列 中 的 一 点 点 特征 创建 超级 列 , 所 以 不 需要 创建 很 多 新 特征 就 可 以 
捕获 所 有 潜在 的 特征 交互 。 因 为 特征 转换 算法 涉及 和 矩阵 和 线性 代数 , 所 以 不 会 创造 出 比 原 有 列 更 
多 的 列 ， 而 且 仍 能 提取 出 原始 列 中 的 结构 。 


寺 征 转换 算法 可 以 选择 最 佳 的 列 , 将 其 与 几 个 全 新 的 列 进行 组 合 ， 从 而 构建 新 的 特征 。 我 们 
可 以 认为 ， 特征 转换 在 本 书 中 最 强大 的 算法 之 列 。 下 面 介绍 首先 要 用 到 的 算法 和 数据 集 : 主 成 分 
分 析 和 茄 尾 花 数据 集 。 
























































6.2 主 成 分 分 析 


主 成 分 分 析 ( PCA ，principal components analysis ) 是 将 有 多 个 相关 特征 的 数据 集 投 影 到 相 
关 特 征 较 少 的 坐标 系 上 。 这 些 新 的 、 不 相关 的 特征 (之 前 称 为 超级 列 ) 叫 主 成 分 。 主 成 分 能 
代 原 始 特征 空间 的 坐标 系 ， 需 要 的 特征 少 、 捕 捉 的 变化 多 。 在 摄像 头 的 例子 中 ， 主 成 分 就 是 摄 
像 头 本 身 。 


换 名 话说, PCA 的 目标 是 识别 数据 集中 的 模式 和 潜在 结构 ,以 创建 新 的 特征 ,而 非 使 用 原始 
特征 。 和 特征 选择 类 似 ， 如 果 原 始 数据 是 zx 4 的 (n 是 观察 值 数 ，d 是 原始 的 特征 数 )， 那 么 我 
们 会 将 这 个 数据 集 投影 到 nn xk(k<4a) 的 矩阵 上 。 

主 成 分 会 产生 新 的 特征 ， 最 大 化 数据 的 方差 。 这 样 ， 每 个 特征 都 会 解释 数据 的 形状 。 主 成 分 
按 可 以 解释 的 方差 来 排序 , 第 一 个 主 成 分 最 能 解释 数据 的 方差 , 第 二 个 其 次 。 我 们 希望 用 尽 可 能 
多 的 成 分 来 优化 机 噩 学 习 任 务 ， 无 论 是 监督 学 习 还 是 无 监督 学 习 。 





























































































































特征 转换 将 数据 集 转 换 为 行 数 相同 、 特 征 数 较 少 的 和 矩阵。 这 和 特征 选择 类 似 ， 
自 且 站 注 








但 是 关注 点 在 于 创建 全 新 的 特征 
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PCA 本 身 是 无 监督 任务 ,意思 是 PCA 不 使 用 响应 列 进行 投影 /转换 。 这 点 很 重要 ， 因 为 我 们 
的 第 二 个 特征 转换 算法 是 有 人 而 且 会 利用 响应 变量 来 用 不 同 的 方式 创建 超级 列 , 优化 预测 
任务 。 

















6.2.1 PCA 的 工作 原理 


PCA 利用 了 协 方差 矩阵 的 特征 值 分 解 。PCA 的 数学 原理 首次 发 表 于 20 世纪 30 年 代 ， 涉 及 
一 点 多 变量 微 积 分 和 线性 代数 。 出 于 本 书 的 目的 ， 我 们 跳 过 数学 部 分 ， 直 接 看 应 用 。 

















PCA 也 可 以 在 相关 纸 阵 上 使 用 。 如 果 特 征 的 尺度 类 似 ， 那 么 可 以 使 用 相关 托 阵 ; 
尺度 不 同时 ， 应 该 使 用 协 方差 矩阵 。 一 般 建议 在 缩放 数据 上 使 用 协 方差 矩阵 。 


这 个 过 程 分 为 4 步 : 


(1) 创建 数据 集 的 协 方差 矩阵 ; 

(2) 计算 协 方差 矩阵 的 特征 值 ; 

(3) 保留 前 大 个 特征 值 〈 按 特征 值 降序 排列 ); 
(4) 用 保留 的 特征 向 量 转换 新 的 数据 点 。 


我 们 用 高 尾 花 数据 集 作为 例子 。 这 个 数据 集 比 较 小 , 我 们 会 一 步 步 地 查看 scikit-learn 的 PCA 
效果 如 何 。 

















6.2.2 ”和 芒 尾 花 数 据 集 的 PCA 一 一 手动 处 理 


芒 尾 花 数 据 集 ( iris ) 有 150 行 和 4 列 。 每 行 (观察 值 ) 代表 一 打 花 ， 每 列 ( 特征 ) 代表 
花 的 4 种 定量 特点 。 数据 集 的 目标 是 拟 合 一 个 分 类 器 , 尝试 在 给 定 4 个 特征 后 , 在 3 种 花 中 预测 。 
花 的 类 型 分 别 是 山 功 尾 ( setosa )、 变 色 忘 尾 ( versicolor ) 和 维 吉 尼 亚 营 尾 (virginica )。 


这 个 数据 集 在 机 器 学 习 中 特别 普遍 ， 以 至 于 scikit-learn 有 一 个 下 载 该 数据 集 的 内 置 模块 。 CE 
(1) 我 们 先 加 载 模块 ， 将 数据 集 存储 到 变量 iris: 


# 从 scikit-learn 中 导入 数据 集 

from sklearn.datasets import load iris 
# 导入 画图 模块 

Import matplotlib.pyplot as plt 
smatplotlib inline 



























































# 加 载 数 据 集 


iris = load_ iris() 


(2) 然后 将 数据 和 矩阵 和 响应 变量 存储 到 iris_x 和 iris_y 中 : 
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# 创建 又 和 yy 变量 ， 存 储 特征 和 响应 列 


iris x, iris y = iris.data, iris.target 


(3) 先 看 一 下 要 预测 的 花 的 名 称 : 
# 要 预测 的 花 的 名 称 


iris.target_names 





array (['setosa', 'versicolor', 'virginica'], dtype='<U10') 
(4) 除了 花 的 名 称 ， 我 们 还 可 以 查看 用 于 预测 的 特征 名 称 : 
# 特征 名 称 


Iris.feature_names 


['sepal length (cm) '， 
'sepal width (cm)', 
'petal length (cm)', 
'petal width (cm)'] 


(5) 为 了 理解 数据 ， 我 们 写 一 点 代码 ， 查 看 一 下 其 中 的 两 个 特征 : 


# {0: 'setosa', 1: 'versicolor', 2: 'virginica'} 
label_ dict = {i: k for i, k in enumerate(iris.target names)} 





def plot (Xx, y, title, x_label, y_label): 
ax = plt.subplot (111) 
for label,marker,color in zip( 


range (3) 7 or ET TO ) (ble "Ped “qreen ) ): 
plt.scatter (x=X[:,0] .reall[ly == labell], 
y=X[:,1] .reall[ly == labell], 
CoOLOPTS00L07, 
alpha=0.5, 


label=label_dict[labell] 
) 


plt.xlabel (x_label) 
plt.ylabel (y_label) 


leg = plt.legend(loc='upper right', fancybox=True) 
leg.get_frame().set_alpha(0.5) 
plt.title(title) 


plot (iris_ x, iris y, "Original Iris Data", "sepal length (cm) 


上 面 代码 的 输出 如 下 图 所 示 。 
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然后 在 数据 集 上 执行 PCA， 获 得 主 成 分 。 回 忆 一 下 ， 这 包括 4 个 步 又 。 
1. 创建 数据 集 的 协 方差 矩阵 


为 了 计算 营 尾 花 数 据 集 的 协 方差 矩阵 ， 我 们 先 计算 特征 的 均值 向 量 ( 后面 使 用 )， 然 后 用 
NumPy 计算 协 方差 矩阵 。 

协 方差 矩阵 是 dx a 的 正方 形 矩 阵 ( 特征 数 与 行 数 、 列 数 均 相等 )， 表 示 特 征 间 的 交互 。 它 和 
相关 系数 矩阵 很 相似 ;: 


# 手动 计算 PCA 








# 导入 NumPy 
import numpy as np 


# 计算 均值 向 量 
mean_ vector = iris_ XxX.mean (axis=0) 
print (mean vector) 


# 计算 协 方 差 矩 阵 
CO Iat. = Tp: G0V( (iriS XX)T) 
print (cov_mat.shape) 





[5S.-84333333 3.054 3.75866667 1.19866667] 
(4, 4) 


现在 cov_mat 变量 是 4x 4 的 协 方差 矩阵 。 

2. 计算 协 方 差 矩阵 的 特征 值 

NumPy 有 一 个 方便 的 函数 ， 可 以 计算 特征 向 量 和 特征 值 ， 以 获得 音 尾 花 数据 集 的 主 成 分 : 
# 计算 苗 尾 花 数 据 集 的 特征 向 量 和 特征 值 


eig_val_ cov, eig vec cov = np.linalg.eig(cov_mat) 
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# 按 降序 打印 特征 向 量 和 相应 的 特征 值 
for i in range(lenl(eig val cov)): 
eigvec_ cov = eig_ vec cov[:,i] 
print ('Eigenvector {}: \n{}'.format (i+1, eigvec_ cov)) 
print ('Eigenvalue {} from covariance matrix: {}'.format (i+1l, eig val_cov[i])) 
EL (3 ey) 


Eigenvector 1: 
[ 0.36158968 -0.08226889 0.85657211 0.35884393] 
Eigenvalue 1 from covariance matrix: 4.224840768320107 


Eigenvector 2: 
[-0.65653988 -0.72971237 0.1757674 0.07470647] 
Eigenvalue 2 from covariance matrix: 0.242243571627515 


Eigenvector 3: 
[-0.58099728 0.59641809 0.07252408 0.54906091] 
Eigenvalue 3 from covariance matrix: 0.07852390809415474 


Eigenvector 4: 
[F-03175455 0.32409439 =0..47971899s .D751L12056] 
Eigenvalue 4 from covariance matrix: 0.023683027126001163 


3. 按 降序 保留 前 k 个 特征 值 


我 们 有 4 个 特征 值 ， 需 要 选择 合适 的 数量 进行 保留 。 如 果 我 们 愿意 ， 可 以 保留 完整 的 4 个 ， 
但 是 一 般 希 望 选择 的 比 原始 特征 数 更 少 。 多 少 合适 呢 ? 虽然 可 以 进行 暴力 搜索 , 但 是 我 们 的 工具 
库 中 有 一 个 新 工具 一 一 碎 石 图 (scree plot )。 


碎 石 图 是 一 种 简单 的 折线 图 ， 显示 每 个 主 成 分 解释 数据 总 方差 的 百分比 。 要 绘制 雄 石 图 , 需 
要 对 特征 值 进行 降序 排列 , 绘制 每 个 主 成 分 和 之 前 所 有 主 成 分 方差 的 和 。 在 蕊 尾 花 数据 集 上 , 我 
们 的 碎 石 图 有 4 个 点 , 每 个 点 代表 一 个 主 成 分 。 每 个 主 成 分 解释 了 总 方差 的 某 个 百分比 , 相 加 后 ， 
所 有 主 成 分 应 该 解释 了 数据 集中 总 方差 的 100%。 

我 们 取 每 个 特征 向 量 ( 主 成 分 ) 的 特征 值 ， 将 其 除 以 所 有 特征 值 的 和 ,计算 每 个 特征 向 量 解 
释 方差 的 百分比 : 

# 每 个 主 成 分 解释 的 百分比 是 特征 值 除 以 特征 值 之 和 


explained variance ratio = elig_val_cov/eig_val_cov.sum() 
explained variance_ratio 
























































array ([0.92461621, 0.05301557, 0.01718514, 0.00518309]) 


可 以 看 到 ，4 个 主 成 分 解释 的 部 分 有 很 大 差异 。 作 为 单个 特征 ( 列 )， 第 一 个 主 成 分 可 以 解 
释 方差 的 92% 以 上 。 太 惊人 了 ! 理论 上 ， 这 个 超级 列 可 以 完成 4 个 原始 列 的 绝 大 部 分 工作 。 


下 面 对 碎 石 图 进行 可 视 化 ， 图 中 的 x 轴 上 有 4 个 主 成 分 , y 轴 是 累积 方差 。 每 个 数据 点 代表 
到 这 个 主 成 分 为 止 可 以 解释 的 方差 百分比 : 











# 碎 石 图 





plt.plot (np.cumsum(explained variance _ ratio)) 
plt.title('Scree Plot') 

plt.xlabel('Principal Component (k)') 
plt.ylabel('% of Variance Explained <= k') 


上 面 代码 的 输出 如 下 图 所 示 。 
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上 图 告诉 我 们 , 前 两 个 主 成 分 就 占 了 原始 方差 的 近 98%, 意味 着 几乎 可 以 只 用 前 两 个 特征 向 
量 作为 新 的 主 成 分 。 我 们 可 以 将 数据 集 缩小 一 半 ( 从 4 列 缩小 到 2 列 )， 而 且 保持 了 特征 的 完整 
性 、 加 速 了 性 能 。 下 面 会 进一步 研究 机 融 学 习 的 例子 ， 并 对 理论 加 以 验证 。 








特征 值 分 解 总 是 会 产生 和 特征 一 样 多 的 特征 向 量 。 我 们 需要 在 计算 完毕 后 选择 
希望 使 用 的 主 成 分 数量 。 这 表示 PCA 和 本 书 中 大 部 分 算法 一 样 是 半 监 督 的 ， 需 
要 一 些 人 为 给 入 。 


4. 使 用 保留 的 特征 向 量 转换 新 的 数据 点 Ea 
在 做 出 保留 两 个 主 成 分 的 决定 后 ( 这 个 数字 是 靠 网 格 搜索 还 是 分 析 碎 石 图 得 到 的 无 关 紧要 )， 
我 们 必须 能 用 这 些 主 成 分 转换 新 的 样本 数据 点 。 首 先 隔离 这 两 个 特征 向 量 ， 存 储 在 


top_2_eigenvectors 变量 中 : 











# 保存 两 个 特征 向 量 


top_2_eigenvectors = eig vec cov[:,:2].T 


# 转 置 ， 每 行 是 一 个 主 成 分 ， 两 行 代表 两 个 主 成 分 


top_2_eigenvectors 


array([[ 0.36158968, -0.08226889, 0.85657211, 0.358843931]， 
[-0.65653988, -0.72971237, 0.1757674 ， 0.07470647]]) 


数组 代表 了 两 个 特征 向 量 : 


支 
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D[ 0.36158968, -0.08226889, 0.85657211, 0.35884393] 
D [-0.65653988, =0.72971237, 0.1757674 ， 0.07470647]] 


通过 这 些 向 量 ， 我 们 可 以 将 iris_X 和 top_2_eigenvectors 两 个 矩阵 相 乘 ， 将 数据 投影 
到 改进 后 的 超级 数据 集中 。 下 图 显示 了 这 个 过 程 。 
























































top_ 2_2eigenvectors.T 转换 后 的 但 尾 


4x2 150x2 









































上 图 显示 了 如 何 利 用 主 成 分 将 数据 集 从 原始 空间 转换 到 新 的 坐标 系 。 在 本 例 中 ， 我 们 将 原始 
的 150 x 4 的 但 尾 花 数据 集 乘 以 两 个 特征 向 量 的 转 置 。 结 果 是 一 个 行 数 相同 但 是 列 数 减 少 的 矩 
阵 。 每 行 都 乘 以 了 两 个 主 成 分 






































和 矩阵 相 乘 后 ， 我 们 将 原始 数据 集 投 影 到 这 个 新 的 二 维 空间 : 
# 将 数据 集 从 150 x 4 转换 到 150 x 2 
# 将 数据 矩阵 和 特征 向 量 相 乘 


np.dot (iris_x, top_ 2_eigenvectors.T)[:5,] 


135947 5644133105]2> 
.79595248，-5.14516688]， 


array ([ ] 
] 
.62.1528356. 597/ 8 2 
] 
] 


/649059 2055003599424]5 
.78275012, -5.64864829 


这 样 就 完成 了 。 我 们 将 四 维 的 高 尾 花 数据 集 转换 成 了 只 有 两 列 的 新 矩阵 , 而 这 个 新 矩 阵 可 以 
在 机 器 学 习 流 水 线 中 代替 原始 数据 集 。 


CO MD N N 


] ) 
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6.2.3 scikit-learn 的 PCA 





和 往常 一 样 ，scikit-learn 在 转换 器 中 实现 了 这 个 过 程 ， 所 以 每 次 想 调 用 这 个 强大 的 过 程 时 ， 
都 不 必 手 动 编写 。 
(1) 从 scikit-learn 的 分 解 模 块 中 导入 : 


# scikit-learn 的 PCA 
from sklearn.decomposition import PCA 


(2) 为 了 模仿 芒 尾 花 数 据 集 的 操作 过 程 ， 我 们 实例 化 有 两 个 组 件 的 PCA 对 象 : 
# 和 其 他 scikit 模块 一 样 ， 先 实例 化 


pca = PCA(n_components=2) 


(3) 现在 可 以 用 PCA 拟 合 数据 了 : 
# 在 数据 上 使 用 PCA 


pca.fit (iris Xx) 


(4) 查看 一 下 PCA 对 象 的 属性 ， 看 看 是 不 是 和 手动 计算 的 结果 匹配 。 检 查 components_ 


性 是 不 是 和 前 面 的 top_2_eigenvectors 变量 匹配 : 














el 








pca.components_ 


array([[ 0.36158968, -0.08226889, 0.85657211, 0.358843931]， 
[ 0.65653988, 0.72971237, -0.1757674 ， -0.07470647]]) 


# 第 二 列 是 手动 过 程 的 负数 ， 因 为 特征 向 量 可 以 为 正 也 可 以 为 负 

# 对 机 器 学 习 流水 线 几乎 没有 影响 

(5) 这 两 个 主 成 分 几乎 完美 匹配 之 前 的 top_2_eigenvectors 变量 。 我 们 说 “几乎 ” 完 
是 因为 第 二 个 主 成 分 是 之 前 计算 值 的 负数 。 然 而 这 在 数学 上 而 言 没有 问题 ， 因 为 两 个 特征 都 100% 
有 效 ， 而 且 也 是 不 相关 的 。 


(6) 到 目前 为 止 , 这 个 过 程 比 前 面 的 简单 得 多 。 要 完成 这 个 过 程 , 我 们 用 PCA 对 象 的 transform 
方法 ， 将 数据 投影 到 新 的 二 维 平面 上 : 


pca.transform(iris Xx)[:5,] 






































[~2.68420713; ‘0.32660731]; 
[D39002.. .056955:689 3 
[2..:88981954;. 0113734561]3 
[-2.7464372 ， -0.31112432]， 
[=2..72859298; 0..333924561]]) 


# scikit-learn 的 PCA 会 将 数据 中 心 化 ， 所 以 和 手动 过 程 的 数据 不 一 样 


0 注意 ， 这 里 投影 后 的 数据 和 之 前 不 同 ， 因 为 scikit-learn 的 PCA 会 在 预测 阶段 自 
动 将 数据 中 心 化 ， 从 而 改变 结果 。 
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(7) 我 们 可 以 改变 一 行 ， 模 仿 之 前 的 效果 : 
# 手动 中 心 化 数据 ， 模 仿 scikit-learn 的 PCA 


np.dot (Iris_X-mean_ vector, top_2_ eigenvectors.T)[:5,] 
array ([[-2.68420713, -0.32660731], 
[-2.71539062, 0.16955685]， 
[-2.88981954, 0.13734561]， 
[-2 ] 
[-2 ] 


.7464372 ， 0.31112432]， 
2859298. 二 0533392456]]) 


(8) 绘制 高 尾 花 数据 集 ， 比 较 一 下 投影 到 新 坐标 系 之 前 和 之 后 的 样子 : 
# 绘制 原始 和 投影 后 的 数据 


plot (iris x, iris y, "Original Iris Data", "sepal length (cm)", "sepal width (cm)") 
plt.show!() 

plot (pca.transform(iris XxX), iris y, "Iris: Data projected onto first two PCA 
components", "PCAl1", "PCA2") 


上 面 代码 的 输出 如 下 图 所 示 。 
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在 原始 数据 集中 , 我 们 可 以 在 前 两 列 的 原始 特征 空间 中 看 见 这 些 葛 尾 花 。 但 是 在 投影 后 的 空 
间 内 ,各 种 花 分 离 得 更 远 ， 而 且 旋 转 了 一 点 。 数 据 聚 类 看 上 去 更 突出 了 。 这 是 因为 我 们 的 主 成 分 
尽 可 能 捕 提 了 数据 的 方差 ， 并 在 图 中 展示 。 

我 们 可 以 像 手动 的 例子 一 样 ， 提 取 每 个 主 成 分 解释 的 方差 量 : 

# 每 个 主 成 分 解释 的 方差 量 


# 和 之 前 的 一 样 


pca.explained variance ratio_ 











array ([0.92461621, 0.05301557]) 


现在 我 们 可 以 用 scikit-learn 的 PCA 实现 所 有 基本 功能 了 ， 下面 用 这 些 信息 展示 PCA 的 主要 
优点 之 一 : 消除 相关 特征 。 


0 本 质 上 , 在 特征 值 分 解 时 , 得 到 的 所 有 主 成 分 都 互相 垂直 , 意思 是 彼此 线性 无 关 。 





因为 很 多 机 带 学 习 模 型 和 预 处 理 技术 会 假设 输入 的 特征 是 互相 独立 的 , 所 以 消除 相关 特征 好 
处 很 大 。 我 们 可 以 用 PCA 确保 这 一 点 。 


为 了 说 明 ， 我 们 创建 音 尾 花 数据 集 的 相关 和 矩阵 ， 找 出 特征 间 的 平均 线性 相关 参数 。 然 后 对 
PCA 投影 后 的 数据 集 执 行 同 样 的 操作 , 并 对 值 进 行 比较 。 我 们 认为 ,投影 后 数据 集 的 平均 相关 系 
数 应 该 更 接近 0， 也 就 是 说 所 有 的 特征 都 是 线性 独立 的 。 


首先 计算 蕊 尾 花 数据 集 的 相关 和 矩阵 。 
(1) 这 个 矩阵 是 4x 4 的 ， 每 个 值 代表 两 个 特征 间 的 相关 性 系数 : 


# PCA 消除 相关 性 









































# 原始 数据 集 的 相关 矩阵 


np.corrcoef (iris_ Xx.T) 





array([[ 1. 0%“10936925;: 0.87175416; ' 0:817953631]3 
=0.10936925.0 二- ， -0.4205161 ， -0.35654409]， 
0.87175416, -0.4205161 ， 1. 03589862:X5 人 可 

] 


O08L795363 O396544097. “O0962757 1 ,Ls 


(2) 我 们 提取 对 角 线 上 的 1， 计 算 特征 间 的 平均 相关 性 : 


# 对 角 线 上 的 相关 系数 
no Orreoet (die ON OF OF La Es EL -Oi Bi < 27 3 





array ([-0.10936925, 0.87175416, 0.81795363, -0.4205161 ， -0.35654409]) 


(3) 最 后 取 数 组 的 均值 : 
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# 原始 数据 集 的 平均 相关 性 
NOCOrrooerf (iris XX TI 0 Qs 1s 


0.16065567094168517 

















， 3]] .mean() 


(4) 平均 相关 系数 是 0.16， 虽然 很 小 ， 但 肯定 不 是 0。 我 们 做 一 个 完整 的 PCA， 提 取 所 有 主 


成 分 : 


# 取 所 有 主 成 分 
full_pca = PCA(nNn_ components=4) 


# PCA 拟 合 数据 集 
full_pca.fit (iris Xx) 


(5) 然后 用 老 办 法 计算 ( 应 该 是 线性 独立 的 ) 新 列 的 平均 相关 系数 : 


pca_iris = full pca.transform(iris Xx) 





# PCA 后 的 平均 相关 系数 

np Corrceoef(pea TrisT) [LO 0 “0 
# 非常 接近 0， 因 为 列 互相 独立 

# 特征 值 分 解 的 重要 性 质 


-5.260986846249321e-17 # 非常 接近 0 


1, 





1], [1, 


， 2, 3]] .mean() 








投影 到 主 成 分 的 数据 相关 性 极 小 ， 在 机 器 学 习 中 总 体 而 言 是 有 帮助 的 。 


6.2.4 ”中心 化 和 缩放 对 PCA 的 影响 


和 前 面 用 过 的 很 多 转换 方法 一 样 , 特征 的 缩放 对 于 转换 往往 极其 重要 。PCA 也 不 例外 。 上 面 
说 到 ，scikit-learn 的 PCA 在 预测 阶段 会 将 数据 进行 中 心 化 ( centering )， 但 为 什么 不 是 在 拟 合 时 


进行 ? 如 果 scikit-learn 的 PCA 要 在 预测 时 添加 一 步 数 据 中 心 化 的 操作 ， 那 为 什么 不 在 计算 特征 
向 量 时 就 完成 ? 我 们 的 假设 是 : 将 数据 中 心 化 不 会 影响 主 成 分 。 下 面 进行 验证 。 


(1) 导入 scikit-learn 的 Standardscaler 模块 ， 对 音 尾 花 数据 集 进 行 中 心 化 : 





# 导入 缩放 模块 


from sklearn.preprocessing import StandardScaler 


# 中 心 化 数据 








XxX_centered = StandardScaler (with std=False) .fit_ transform(iris_ XxX) 


X_centered[:5,] 


array ([[-0.74333333, 0.446 
[0.594333333s =0..05 间 
[-1.14333333， 0.146 
[=1.243333337 .Qi046 
[=0384333333 “0546 








(2) 查看 一 下 中 心 化 后 的 数据 集 : 


.35866667, 
.35866667, 
.45866667, 
.25866667, 
.35866667, 


= ] 
-0 . ] 
.99866667]， 

] 


-0 


=0: 
=0s 


99866667]， 
99866667]， 


99866667]， 


99866667]]) 
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# 绘制 中 心 化 后 的 数据 

















plot (Xx_centered, iris y, "Iris: Data Centered", "sepal length (cm)", "sepal width 
(cm) ") 
于 ss 
结果 如 下 图 所 示 。 
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(3) 用 之 前 实例 化 的 PCA 类 (n_components 设 为 2 ) 拟 合 中 心 化 后 的 数据 集 : 


# 拟 合 数据 集 
pca.fit (x_centered) 


(4) 之 后 调用 PCA 类 的 components_ 属 性 ， 和 原始 音 尾 花 数据 集 的 结果 进行 比较 ; 
# 主 成 分 一 样 


pca.components_ 








array([[ 0.36158968, -0.08226889, 0.85657211, 0.358843931]， 
[ 0.65653988, 0.72971237, -0.1757674 ， -0.07470647]]) 


(5) 看 起 来 中 心 化 后 的 主 成 分 和 之 前 的 完全 相同 。 为 了 明确 解释 ,我 们 用 PCA 类 对 中 心 化 后 
的 数据 进行 转换 ， 查 看 前 5 行 是 否 和 之 前 的 投影 一 样 : 


# PCA 自动 进行 中 心 化 ， 投 影 一 样 6 


pca.transform(X_ centered)[:5,] 








array tl l=268420713;, :0326690734]; 
oo39062 0%L69055685 |; 
2588981954; ~—0.13734561.]s 
] 
] 


-2.7464372 ，-0.31112432]， 
<2.712859298; 033392456]]7 





(6) 结果 是 一 样 的 ! 投影 后 的 中 心 化 数据 和 被 解释 的 方差 比例 也 匹配 : 
# PCA 中 心 化 后 的 数据 图 ， 和 之 前 的 一 样 


plot (pca.transform(Xx_centered), iris y, "Iris: Data projected onto first two PCA 
components with centered data", "PCAl", "PCA2") 


结果 如 下 图 所 示 。 
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Iris: Data projected onto first two PCA components with centered data 


setosa 
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关于 解释 方差 的 百分比 ， 我 们 可 以 这 样 看 : 


# 每 个 主 成 分 解释 方差 的 百分比 
pca.explained variance ratio_ 


array ([0.92461621, 0.05301557]) 








这 是 因为 ， 原 始 和 矩阵 和 中 心 化 后 矩阵 的 协 方差 矩阵 相同 。 如 果 两 个 矩阵 的 协 方差 矩阵 相同 ， 
那么 它们 的 特征 值 分 解 也 相同 。 因 此 ，scikit-learn 的 PCA 不 会 对 数据 进行 中 心 化 ,因为 无 论 是 否 
进行 中 心 化 操作 ， 结 果 都 一 样 。 那 么 为 什么 要 加 上 这 个 步 又 呢 ? 





我 们 观察 一 下 ， 用 标准 分 数 进行 缩放 时 ， 主 成 分 的 变化 程度 : 
# Z 分 数 缩放 


XxX_scaled = StandardqScaler() .fit_ transform(iris x) 


# 绘图 
plot (xX_scaled, iris y, "Iris: Data Scaled", "sepal length (cm) " 


输出 如 下 图 所 示 。 


,， "Sepal width (cm)") 
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需要 注意 ， 到 这 里 , 我 们 已 经 以 不 同 的 形式 绘制 了 高 尾 花 数据 集 : 原始 格式 ， 中 心 化 ， 以 及 
完全 缩放 。 在 每 幅 图 中 ,数据 点 完全 相同 , 但 是 轴 不 一 样 。 这 是 预料 之 中 的 : 中 心 化 和 缩放 不 会 
改变 数据 的 形状 ， 但 是 会 影响 特征 工程 和 机 器 学 习 流水 线 的 特征 交互 。 


在 经 过 缩放 的 新 数据 上 应 用 PCA 模块 ， 看 一 下 主 成 分 的 变化 : 


# 二 维 PCA 拟 合 
pca.fit (x_scaled) 











# 与 中 心 化 后 的 主 成 分 不 同 


pca.components_ 


array ([[ 0.52237162, -0.26335492, 0.58125401, 0.56561105]， 
[ 0.37231836, 0.92555649, 0.02109478, 0.06541577]]) 


和 之 前 的 主 成 分 不 同 , 这 次 连 数字 也 不 一 样 。PCA 不 改变 数据 的 尺度 , 所 以 数据 的 尺度 会 影 
啊 主 成 分 。 注 意 , 这 里 缩放 的 意思 是 对 数据 进行 中 心 化 ,并 除 以 标准 差 。 我 们 把 数据 集 投影 到 新 
的 主 成 分 上 ， 确 定 新 的 投影 数据 已 经 有 了 变化 : 


# 缩放 不 同 ， 投 影 不 同 
pca.transform(X_scaled)[:5,] 





array ([[-2.26454173, 0.5057039 |] 
-2.0864255 ， -0.65540473]， 
= 3.679504Dr 93 8 人 77 二 由 > 
2 304T NL6. = 0 0D3 67 
-2.38877749, 0.6747674 ] 


最 后 ， 查 看 一 下 解释 方差 的 百分比 : 


# 每 个 主 成 分 解释 方差 的 百分比 
pca.explained variance ratio_ 





] ) 


array( [0..727"0452., 0 ,23030523:]:) 


有 意思 。 在 特征 工程 或 机 器 学 习 中 ,特征 缩放 一 般 来 说 都 是 好 的 ,我 们 在 大 多 数 情况 下 会 推 
荐 这 种 操作 。 但 是 为 什么 第 一 个 主 成 分 解释 方差 的 比例 比 之 前 低 得 多 ? 

这 是 因为 对 数据 进行 缩放 后 , 列 与 列 的 协 方差 会 更 加 一 致 , 而 且 每 个 主 成 分 解释 的 方差 会 变 
得 分 散 ， 而 不 是 集中 在 一 个 主 成 分 中 。 在 实践 和 生产 环境 下 , 我们 会 建议 进行 缩放 , 但 应 该 在 缩 
放 和 未 缩放 的 数据 上 都 进行 性 能 测试 。 

回顾 一 下 这 个 部 分 ， 看 看 缩放 后 数据 的 投影 : 

# 绘制 缩放 后 数据 的 PCA 


plot (pca.transform(x_scaled), iris y, "Iris: Data projected onto first two PCA 
components", "PCA1", "PCA2") 


输出 如 下 图 所 示 。 
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区 别 不 明显 , 但 是 如 果 你 仔细 观察 并 与 之 前 投影 后 的 原始 和 中 心 化 数据 进行 比较 , 可 以 看 见 
一 点 微妙 的 差异 。 


6.2.5 ”深入 解释 主 成 分 
在 介绍 第 二 个 特征 转换 算法 前 ， 我 们 需要 研究 一 下 如 何 解释 主 成 分 。 


(1) 这 尾 花 数据 集 是 一 个 150 x 4 的 抢 阵 。 当 我 们 把 n_components 设置 为 2 时 ， 得 到 的 和 矩 
阵 是 2x4 的 : 


# 解释 主 成 分 
pca.components_# 2 x 4 矩阵 














array([[ 0%52237162; -0.26335492, .059581254017 ‘0.56561105]; 
[ 0.37231836, 0.92555649, 0.02109478, 0.06541577]]) 


(2) 和 手动 计算 特征 向 量 时 一 样 ，components_ 属 性 可 以 用 年 阵 乘法 计算 投影 。 我 们 将 原始 
数据 和 components_ 和 矩阵 的 转 置 相 乘 ; 


# 原始 矩阵 (150 x 4) 和 转 置 主 成 分 矩阵 (4 x 2) 相 乘 ， 得 到 投影 数据 (150 x 2) 
np.dot (X_scaled, pca.components_.T)[:5,] 











[~2.26454173; :0,5057039 ], 
[-2.0864255 ， -0.65540473]， 
[2.536795049; “=0.33L84731]; 
[ 23,304197163 二 35753677 3 
[-2 ] 


.38877749, 0.6747674 ]]) 


(3) 为 了 让 行列 数 对 应 ,我们 对 和 矩阵 进行 了 转 置 。 其 底层 的 原理 是 ， 对 于 每 行 ， 计 算 原 始 行 
和 每 个 主 成 分 的 点 积 。 点 积 的 结果 是 新 的 行 : 
# 提取 缩放 数据 的 第 一 行 


first_scalegd flower = X_ scaled[0] 
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# 提取 两 个 主 成 分 
first_Pc = pca.components_[0] 
second_Pc = pca.components_[1] 


first_scaled_ flower.shape # (4,) 
print (first_scaled_ flower) # array([-0.90068117, 1.03205722, -1.3412724 ， 
S329673] > 


# 就 是 第 一 行 和 主 成 分 的 点 积 
np.dot (first_scaled flower, first_Pc), np.dot (first_scaled flower, second_Pc) 


[-0.90068117 1.03205722 -1.3412724 -1.31297673] 
(-2.264541728394902, 0.5057039027737822) 


(4) 可 以 利用 内 置 的 转换 方法 进行 操作 : 
# PCA 的 转换 方法 


pca.transform(X_scaled)[:5,] 


array ([[-2.26454173, 0.5057039 |] 

[2..0864255. ;=0 65540473]s 
[-2.36795045, -0.31847731],， 
[=2.304197.16:. -5-057536771)3 
[Be ] 


.38877749, 0.6747674 ]]) 
































换 名 话说 ， 每 个 主 成 分 都 是 原始 列 的 组 合 。 这 样 ， 我 们 的 第 一 个 主 成 分 是 : 


[ 0.52237162, -0.26335492, 0.58125401, 0.56561105] 


第 一 个 缩放 后 的 花 是 : 


[>0900681173 1 :03205722,: 1:34L2724 二 2331297673 


要 获取 投影 矩阵 第 一 行 的 第 一 个 元 素 ， 可 以 用 公式 : 











(0.52237162 x - 0.90068117) + (~ 0.26335492 x 1.03205722) + (0.58125401 x — 1.3412724) + 
(0.56561105 x - 1.31297673) = - 2.264541736368 6 











得 


实际 上 ， 对 于 任何 花 的 数据 ( 坐标 是 (a, b, c, qd): 按 iris.feature_names 的 描述 ,a 是 
片 长 度 ,b 是 莹 片 宽度 ，c 是 花 办 长 度 ，d 是 花瓣 宽度 )， 新 坐标 系 的 第 一 个 值 可 以 如 此 计算 : 


0.52237162a -0.26335492b + 0.58125401c + 0.56561105d 
我 们 进一步 处 理 ， 对 主 成 分 进行 可 视 化。 我 们 截断 原始 数据 ， 只 保留 两 个 原始 特征 ， 即 萝 片 
长 度 和 莹 片 宽度 。 这 样 做 的 原因 是 使 可 视 化 更 加 简单 ， 不 需要 关心 4 个 维度 : 
# 删 掉 后 两 个 特征 


ETS 2 dT SL E23 


















































# 中 心 化 
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iris 2 qim = 1iris_2_ dim - 1iris_2 qim.mean(axis=0) 


plot (iris 2 dim, iris y, "Iris: Only 2 dimensions", "sepal length", "sepal width") 


输出 如 下 图 所 示 。 
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可 以 看 见 左下 角 有 一 个 山 音 尾 〈setosa ) 的 聚 类 ， 右 上 方 是 变色 音 尾 (versicolor ) 和 维 吉 尼 
亚 音 尾 (virginica ) 的 聚 类 ， 后 者 所 占 面 积 更 大 。 很 明显 ， 数 据 整 体 上 按 从 左下 角 到 右上 和 角 的 对 
角 线 延伸 。 我 们 和 希望 主 成 分 会 按 此 重新 安排 数据 。 
我 们 实例 化 一 个 保留 两 个 主 成 分 的 PCA 类 ， 然 后 将 截断 的 总 尾 花 数据 集 转 换 为 新 的 列 : 


# 实例 化 保留 两 个 主 成 分 的 PCA 
twodim pca = PCA(n_ components=2) 














# 拟 合 并 转换 蕉 断 的 数据 


Iris_2_dqim transformed = twodim pca.fit transform(iris 2_dim) 


plot (iris_ 2_ dim transformed, iris y, "Iris: PCA performed on only 2 dimensions", 
"PCAL" "PCA2 2 


结果 如 下 图 所 示 。 
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第 一 个 主 成 分 PcCA 1 表示 了 大 部 分 差异 ， 所 以 投影 后 的 数据 主要 在 x 轴 上 分 布 。 注 意 x 轴 
的 区 间 是 -3 ~3， 而 了 轴 的 区 间 是 -0.4 ~ 0.6。 为 了 进一步 说 明 ， 我 们 用 下 面 的 代码 绘制 原始 和 投 
影 后 的 并 尾 花 散 点 图 ， 在 两 个 坐标 系 上 面 履 盖 twodim_pca 的 主 成 分 。 


我 们 的 目标 是 将 主 成 分 理解 成 引导 向 量 , 展示 数据 如 何 移动 , 以 及 这 些 向 量 如 何 变 成 垂直 坐 
标 系 : 


# 下 面 的 代码 展示 原始 数据 和 用 PCA 投影 后 的 数据 
# 但 是 在 图 上 ， 每 个 主 成 分 都 按 数据 的 向 量 处 理 
# 长 箭头 是 第 一 个 主 成 分 ， 短 箭头 是 第 二 
def draw_vector(v0O, v1, ax): 
arrowprops=dict (arrowstyle='->',linewidth=2, 
shrinkA=0, shrinkB=0) 
ax.annotate('', vil, vO, arrowprops=arrowprops) 









































fig, ax = plt.subplots(2, 1, figsize=(10, 10)) 
fig.subplots_adjust (left=0.0625, right=0.95, wspace=0.1) 





# 绘图 
ax[0] .scatter (iris_2_ dim[:, 0], iris_2 dim[:, 1], alpha=0.2) 


for length, vector in zip(twodim pca.explained variance_, twodim pca.components_) : 
V = vector * np.sqrt(length) # 拉 长 向 量 ， 和 explained_variance 对 应 
draw_vector (twodim pca.mean ,， 
twodim pca.mean + Vv, ax=ax[0]) 
ax[0] .set (xlabel='x', ylabel='y', title='Original Iris Dataset', 
xlim=(-3, 3), ylim=(-2, 2)) 


ax[1] .scatter (iris 2 dim transformed[:, 0], iris 2_ dim transformed[:, 1], alpha=0.2) 
for length, vector in zip(twodim pca.explained variance_, twodim pca.components_) : 
transformed_component = twodim pca.transform([vector])[0] # 转换 到 新 坐标 系 
V = transformed_component * np.sqrt (length) # 拉 长 向 量 ， 和 explained_variance 对 应 
draw_vector (iris 2_dim transformed.mean (axis=0), 
Iris_2 dim transformed.mean (axis=0) + Vv, ax=ax[1]) 
ax[1] .set (xlabel='component 1', ylabel='component 2', 
title='Projected Data', 
xlim=(-3, 3), ylim=(-1, 1)) 


下 面 两 幅 图 展示 了 原始 曹 尾 花 数据 集 和 使 用 了 PCA 的 投影 数据 集 。 
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上 方 的 图 表示 原始 坐标 系 中 的 主 成 分 。 这 些 主 成 分 不 是 垂直 的 ， 指 向 数据 自然 遵循 的 方向 。 
可 以 看 到 , 两 个 向 量 中 较 长 的 那个 就 是 第 一 个 主 成 分 , 其 方向 明显 是 高 尾 花 数据 最 符合 的 对 角 线 


方向 。 


























第 二 个 主 成 分 是 方差 的 方向 , 解释 一 部 分 的 数据 形状 , 但 不 能 全 部 解释 。 下 方 的 图 显示 了 高 
尾 花 数据 如 何 投影 到 新 的 主 成 分 上 ， 而 新 的 主 成 分 变 成 了 直角 坐标 系 ， 也 就 是 新 的 x 轴 和 >) 轴 。 


PCA 是 一 种 特征 转换 工具 , 能 以 原始 特征 的 线性 组 合 构建 出 全 新 的 超级 特征 。 我 们 看 见 , 这 






































些 新 的 主 成 分 表示 了 最 大 的 方差 , 变 成 了 数据 的 新 坐标 系 。 下 一 个 特征 转换 算法 与 其 类 似 , 也 是 

















从 数据 中 提取 特征 ， 不 过 是 以 机 需 学 习 的 方式 来 做 的 。 


6.3 线性 判别 分 析 





线性 判别 分 析 ( LDA, linear discriminant analysis ) 是 特征 变换 算法 , 也 是 有 监督 分 类 器 。 LDA 
一 般 用 作 分 类 流水 线 的 预 处 理 步 又 。 和 PCA 一 样 ，LDA 的 目标 是 提取 一 个 新 的 坐标 系 ， 将 原始 
数据 集 投影 到 一 个 低 维 空间 中 。 和 PCA 的 主要 区 别 在 于 ，LDA 不 会 专注 于 数据 的 方差 ， 而 是 优 


化 低 维 空间 ， 以 获得 最 佳 的 类 别 可 分 公 





E。 意思 是 ， 新 的 坐标 系 在 为 分 类 模型 查找 决策 边界 时 更 有 
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用 ， 非 常 适合 用 于 构建 分 类 流水 线 。 


LDA 极为 有 用 的 原因 在 于 ， 基 于 类 别 可 分 性 的 分 类 有 助 于 避免 机 器 学 习 流 水 线 
的 过 拟 合 ， 也 叫 防 止 维 度 诅咒 。LDA 也 会 降低 计算 成 本 。 


6.3.1 LDA 的 工作 原理 


LDA 和 PCA 一 样 可 以 作为 降 维 工 具 使 用 ， 但 并 不 会 计算 整体 数据 的 协 方差 矩阵 的 特征 值 ， 
而 是 计算 类 内 (within-class ) 和 类 间 (between-class ) 散布 矩阵 的 特征 值 和 特征 向 量 。LDA 分 为 
5 个 步骤 : 


(1) 计算 每 个 类 别 的 均值 向 量 ; 

(2) 计算 类 内 和 类 间 的 散布 矩阵 ; 

(3) 计算 sz7Ss 的 特征 值 和 特征 向 量 ; 

(4) 降序 排列 特征 值 ， 保 留 前 个 特征 向 量 ; 
(5) 使 用 前 儿 个 特征 向 量 将 数据 投影 到 新 空间 。 


我 们 来 看 一 个 例子 。 
1. 计算 每 个 类 别 的 均值 向 量 


首先 计算 每 个 类 别 中 每 列 的 均值 向 量 , 分 别 是 setosa、versicolor 和 virginica: 


# 每 个 类 别 的 均值 向 量 
# 将 欧 尾 花 数据 集 分 成 3 块 
# 每 块 代表 一 种 欧 尾 花 ， 计 算 均 值 
mean_vectors = [] 
far GL LO Ly. 2] 
Class_mean vector = np.mean(iris Xx[iris y==cl], axis=0) 


















































mean_ vectors.append(class_mean vector) 
print (label_ dictl[cl], class_mean vector) 





setosa [5.006 3.418 1.464 0.244] 
VELSLTCOLFOE ED.936 2877 村.26. -1L.326] 
VirdGTniGa (6.588 2 974-5.552 2::026] 


2. 计算 类 内 和 类 间 的 散布 矩阵 
我 们 先 计算 类 内 的 散布 矩阵 ， 定 义 如 下 : 


Se 
1=1 





Si 的 定义 是 : 
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里 


): 


S; = (x —m,)(x—m,) 


xeD; 


在 这 里 ，mi 代 表 第 i 个 类 别 的 均值 向 量 。 类 间 散 布 算 阵 的 定义 是 : 




















Si Nm —m)(m,—m) 


1=1 


m 是 数据 集 的 总 体 均 值 ，m; 是 每 个 类 别 的 样本 均值 ，N; 是 每 个 类 别 的 样本 大 小 ( 观察 值 数 















































# 类 内 散布 矩阵 
S_W = np.zeros((4,4)) 
# 对 于 每 种 苗 尾 花 
for cl,mv in zip([0, 1, 2], mean vectors): 
# 从 0 开始 ， 每 个 类 别 的 散布 矩阵 
class_sc_mat = np.zeros((4,4)) 
# 对 于 每 个 样本 
for row in iris X[iris_y == CIL]: 
# 列 向 量 
row, mv = row.reshape(4,1), mv.reshape(4,1) 
# 4 x 4 的 和 矩阵 
class_sc_mat += (row-mv) .dot ( (row-mv).T) 
# 散布 矩阵 的 和 


S_W += Class_sc_mat 


S_W 

array.( D38 95062 13..683. 5 24606145 5265565 
[13%683 7 "17 00357 “872 3 “49132); 
Bad.6Ld. ,, “Bd cp HD 3 67253309 
[ ] 


5.6556, 4.9132, 6.2536, 6.1756]]) 
# 类 间 散 布 矩 阵 


# 数据 集 的 均值 


overall mean = np.mean(iris x, axis=0) .reshape(4,1) 


# 会 变 成 散布 矩阵 
SB =" nD2eroB( {444}) 
for i,mean vec in enumerate(mean vectors): 
# 每 种 花 的 数量 
n = iris xXx[iris y==i,:].shape[0] 
# 每 种 花 的 列 向 量 
mean_vec = mean vec.reshape(4,1) 
S_B +=Dnrx (mean vec - overall mean) .dot ((mean vec - overall mean).T) 


SB 


arrmay( [i .03421213333 S195534 ， 165.16466667, 71.36306667]， 
[19.253 六 六 “10%9776 i60592 ， -22.4924 | 
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[165.16466667, -56.0552 ， 436.64373333，186.90813333]， 
[71..36306667; =22.4924 ~ 86.90813333; :80.60413333]]) 


类 内 和 类 间 的 散布 矩阵 是 对 ANOVA 测试 中 一 个 步骤 的 概括 (上 一 章 有 涉及 )。 
此 处 的 想法 是 把 音 尾 花 数 据 分 成 两 个 不 同 的 部 分 。 


计算 矩阵 之 后 ， 我 们 可 以 进入 下 一 步 ， 用 乞 阵 代数 提取 线 性 判别 式 。 
3. 计算 Sy Ses 的 特征 值 和 特征 向 量 


和 PCA 的 操作 类 似 ， 我 们 需要 对 特定 矩阵 进行 特征 值 分 解 。 在 LDA 中 ,我 们 会 分 解 矩 阵 
SS，: 





# 计算 算 阵 的 特征 值 和 特征 向 量 
eig_vals, eig vecs = np.linalg.eig(np.dot (np.linalg.inv(S_W), S_B)) 
eig_vecs = eig vecs.real 
eig_vals = eig vals.real 


for i in range(len(eig vals)): 

eigvec_sc = eig vecs[:,i] 

print ('Eigenvector {}: {}'.format (i+1, eigvec_ sc)) 
print ('Eigenvalue {:}: {}'.format (i+1, eig _ vals[i])) 
print 
Eigenvector 1: [ 0.20490976 0.38714331 -0.54648218 -0.71378517] 
Eigenvalue 1: 32.27195779972981 
Eigenvector 2: [-0.00898234 -0.58899857 0.25428655 -0.76703217] 
Eigenvalue 2: 0.27756686384004514 
Eigenvector 3: [ 0.26284129 -0.36351406 -0.41271318 0.62287111] 
Eigenvalue 3: -2.170668690724263e-15 
Eigenvector 4: [ 0.26284129 -0.36351406 -0.41271318 0.62287111] 
Eigenvalue 4: -2.170668690724263e-15 


注意 第 三 个 和 第 四 个 特征 值 几乎 是 0， 这 是 因为 LDA 的 工作 方式 是 在 类 间 划 分 决策 边界 。 
考虑 到 竟 尾 花 数据 中 只 有 3 个 类 别 ， 我 们 可 能 只 需要 2 个 决策 边界 。 通 常 来 说 ， 用 LDA 拟 合 7 
个 类 别 的 数据 集 ， 最 多 只 需要 -1 次 切割 。 

4. 降序 排列 特征 值 ， 保 留 前 k 个 特征 向 量 

和 了 CA 一 样 ， 只 保留 最 有 用 的 特征 向 量 : 

# 保留 最 好 的 两 个 线性 判别 式 


linear_discriminants = eig_vecs.T[:2] 



































linear_discriminants 


array([[ 0.20490976, 0.38714331, -0.54648218, -0.71378517],， 
[-0.00898234, -0.58899857, 0.25428655, -0.76703217]]) 
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用 每 个 特征 值 除 以 特征 值 的 和 ， 可 以 查看 每 个 类 别 〈 线 性 判别 式 ) 解释 总 方差 的 比例 : 
# 解释 总 方差 的 比例 


eig_vals / eig_vals.sum() 


array ([ 9.91472476e-01, 8.52752434e-03, -6.66881840e-17, -6.66881840e-17]) 


看 起 来 第 一 个 判别 式 做 了 绝 大 部 分 的 工作 ， 拥 有 超过 99% 的 信息 。 





5. 使 用 前 几 个 特征 向 量 投影 到 新 空间 
现在 我 们 有 了 所 有 的 线性 判别 式 , 先 用 特征 向 量 将 意 尾 花 数据 集 投影 到 新 空间 , 然后 用 plot 
函数 绘制 投影 数据 : 


# LDA 投影 数据 
lda_iris projection = np.dot (iris_ x, linear discriminants.T) 
lda. 1ris projection[:5;] 

















plot (lda_iris_ projection, iris y, "LDA Projection", "LDAl", "LDA2") 
输出 如 下 图 所 示 。 
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注意 在 图 中 ,数据 几乎 完全 突出 出 来 了 (甚至 比 PCA 的 投影 效果 还 好 )， 因 为 LDA 会 绘制 
决策 边界 ， 提 供 特征 向 量 / 线 性 判别 式 ， 从 而 帮助 机 需 学 习 模型 尽 可 能 分 离 各 种 花 。 这 有 助 于 ; 
数据 投影 到 每 个 类 别 都 尽 可 能 分 散 的 空间 中 。 








Cay 





6.3.2 在 scikit-learn 中 使 用 LDA 
scikit-learn 中 有 LDA 的 实现 ， 可 以 避免 这 个 费时 费力 的 过 程 。 导 入 很 简单 : 


from sklearn.discriminant_analysis import LinearDiscriminantAnalysis 


然后 可 以 拟 合并 转换 原始 的 高 尾 花 数据 ， 绘 制 新 的 投影 ， 以 便 和 PCA 的 结果 进行 比较 。 注 
意 在 下 面 的 代码 中 ，fit 函数 需要 两 个 输入 。 
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回忆 一 下 , 我 们 说 过 , LDA 其 实 是 伪装 成 特征 转换 算法 的 分 类 器 。 和 PCA 的 无 监督 计算 (不 
需要 响应 变量 ) 不 同 ，LDA 会 党 试用 响应 变量 查找 最 佳 坐标 系 ， 尽 可 能 优化 类 别 可 分 性 。 这 意 
味 着 , LDA 只 在 响应 变量 存在 时 才 可 以 使 用 。 使 用 时 , 我 们 把 响应 变量 作为 第 二 个 参数 输入 fit， 
让 LDA 进行 计算 : 
实例 化 LDA 模块 


lda = LinearDiscriminantAnalysis(n components=2) 




















拟 合 并 转换 苗 尾 花 数 据 


XxX_lda_iris = lda.fit_transform(iris Xx, iris y) 


绘制 投影 数据 
plot (x_lda_ iris, iris y, "LDA Projection", "LDA1", "LDA2") 


输出 如 下 图 所 示 。 
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上 图 是 手动 执行 LDA 时 投影 的 镜像 ， 看 起 来 还 可 以 。 回 想 一 下 , 在 PCA 中 我 们 有 过 符号 相 
反 的 特征 向 量 ， 但 这 不 会 影响 机 器 学 习 流 水 线 。 在 LDA 模块 中 ， 我 们 需要 注意 一 些 差别 。LDA 
有 一 个 scalings_ 属 性 , 没有 components_， 但 是 二 者 的 行为 基本 相同 : Gy 


# 和 pca.components_ 基 本 一 样 ， 但 是 转 置 了 (4 x 2, 而 不 是 2 x 4) 
lda.scalings_ 








arzay(: Ll O05:8192068527 °™%050.32.89979.] 5 

1.5478732 ， 2.15471106],， 
-2.18494056, -0.93024679]， 
-2.85385002, 2.8060046 ]]) 
# 和 手动 计算 一 样 


lda.explained_ variance_ratio_ 





array([0.99147248, 0.00852752]) 


两 个 线性 判别 式 解释 的 方差 和 之 前 计算 的 比例 完全 相同 。 注意 我 们 忽略 了 第 三 个 和 第 四 个 特 
征 值 ， 因 为 它们 几乎 是 0。 
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然而 , 这 些 判 别 式 乍 看 之 下 和 之 前 手动 计算 的 特征 向 量 完全 不 同 。 这 是 因为 scikit-learn 计算 
特征 向 量 的 方式 虽然 得 到 了 相同 的 结果 ， 但 是 会 进行 标量 缩放 ， 如 下 所 示 : 
# scikit-learn 计算 的 结果 和 手动 一 样 ， 但 是 有 缩放 


for manual_component, sklearn component in zipl(eig vecs.T[:2], lda.scalings_.T): 
print (sklearn component / manual_component) 





[L399819178 3.:99819178. S399819178 3:59.981917.8] 
[-3.65826194 -3.65826194 -3.65826194 -3.65826194] 


scikit-learn 计算 的 线性 判别 式 是 手动 计算 结果 的 标量 乘法 ,意味 着 它们 都 是 正确 的 特征 向 量 。 
唯一 的 区 别 在 于 投影 数据 的 缩放 问题 。 

这 些 特征 被 组 织 成 4 x 2 的 和 矩阵， 而 不 是 PCA 中 2 x 4 的 矩阵。 这 是 开发 模块 时 的 选择 ， 在 
数学 上 没有 影响 。LDA 和 PCA 都 不 改变 数据 尺度 ， 所 以 缩放 非常 重要 。 

我 们 在 LDA 上 拟 合 缩放 后 的 竟 尾 花 数据 ， 看 看 差异 : 

# 用 LDA 拟 合 缩放 数据 


XxX_lda_iris = lda.fit_ transform(X_ scaled, iris_y) 
lda.scalings_ # 缩放 后 数据 的 尺度 不 同 

















日 6 和 6 人 3377 “O027 L902; 
0566890811 0593 了 1510] 
35842281135 .16358661397 
2 ] 


.17067434, 2.13428251]]) 








scalings_ 属 性 (和 PCA 的 components_ 属 性 类 似 ) 显示 了 不 同 的 数组 ,代表 投影 也 是 不 
一 样 的 。 为 了 完成 对 LDA 的 描述 ， 我 们 再 用 一 次 之 前 的 代码 ， 像 对 待 PCA 的 components_ 属 
性 一 样 解释 scalings_。 

先 在 截断 后 的 数据 集 上 用 LDA 拟 合并 转换 ， 只 保留 前 两 个 特征 : 

# 在 蕉 断 的 数据 集 上 拟 合 


Iris_ 2 _ dim transformed lda = lda.fit_ transform(iris_ 2 dim, iris_y) 


看 看 数据 集 投影 的 前 5 行 : 


# 投影 数据 
iris_ 2 dim transformed lda[l:5,] 





























array ([[-6.04248571, 0.07027756]， 
-6.04248571, 0.07027756]， 
-6.:19690803;, ‘0.:28598813]; 
-5.88806338，-0.14543302]， 
-6.04248571, 0.07027756]]) 





scalings_ 和 矩阵 现在 是 2x2 的 (2 行 2 列 )， 列 是 判别 式 (和 PCA 的 行 是 主 成 分 不 同 )。 要 
进行 调整 ， 可 以 建立 一 个 叫 components 的 变量 ,保存 scalings_ 的 转 置 : 
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# 名 称 不 同 
components = lda.scalings_.T # 转 置 为 和 PCA 一样 ， 行 变 成 判别 式 
print (components) 


[[ 1.54422328 2.40338224] 
[-2.15710573 5.02431491]] 


np.dot (iris_2_dim, components.T)[:5,] # 和 transform 一样 
array ([[-6.04248571, 0.07027756]， 

[6804248571;. :00.02 7 S63 

[-6.19690803， 0.28598813]， 

[-5.88806338, -0.14543302]， 

[620424857/1 0.0702.7756])) 


我 们 看 见 ，components 变量 和 PCA 中 components_ 的 使 用 方式 相同 。 这 意味 着 ， 和 PCA 
一 样 ， 投 影 是 原始 列 的 一 个 线性 组 合 。 还 要 注意 ，LDA 也 会 和 PCA 一 样 去 除 特 征 的 相关 性 。 为 
了 证 明 这 一 点 ， 我 们 计算 原始 截断 数据 和 投影 数据 的 相关 算 阵 : 

# 原始 特征 的 相关 性 很 大 


np.corrcoef (iris 2_dim.T) 


a av ( blLs ， 0.9627571],， 
LO 9627571., 1 al 


# LDA 的 相关 性 极 小 ， 和 PCA 一 样 
np.corrcoef (iris 2_ dim transformed lda.T) 


array([[1.00000000e+00, 9.77085532e-16],， 
[9.77085532e-16, 1.00000000e+00]]) 


注意 ， 原 始 数据 每 个 矩阵 的 右上 角 ， 特 征 都 是 高 度 相 关 的 ， 但 是 LDA 投影 后 数据 的 特征 高 
度 独立 ( 相关 系数 接近 0 )。 在 利用 PCA 和 LDA 开始 真正 的 机 器 学 习 前 , 我 们 来 总 结 一 下 对 LDA 
的 解释 。 和 PCA 一 样 ， 查 看 LDA 中 scalings_ 属 性 的 图 像 ; 


# 下 面 的 代码 展示 原始 数据 和 用 LDA 投影 后 的 数据 
# 但 是 在 图 上 ， 每 个 缩放 都 按 数 据 的 向 量 处 理 
# 长 箭头 是 第 一 个 缩放 向 量 ， 短 箭头 是 第 二 个 
def draw_vector(v0O, v1, ax): 
arrowprops=dict (arrowstyle='->', 
linewidth=2, 
shrinkA=0, shrinkB=0) 
ax.annotate('', vl, vO, arrowprops=arrowprops) 





























fig,. ax Sipl1t, SubPLOES(2,. 1, figSstZes(L0, LO0)) 
fig.subplots_adjust (left=0.0625, right=0.95, wspace=0.1) 


# 绘图 
ax[0] Seatter (iris 2dim[:.. "0? Tris. 2 diml; 4] dtpha=0.2) 
for length, vector in zip(lda.explained variance_ ratio _ , components): 

VY VEGtoOr*, » 5 

draw_vector(lda.xbar_, lda.xbar + Vv, ax=ax[0]) # lda.xbar_ 等 于 pca.mean 
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ax[0] .axis('equal') 
ax[0] .set (xlabel='x', ylabel='y', title='Original Iris Dataset', 


1 六 让 


ax[1] .scatter(iris 2 dim transformed lda[l:, 0], iris_ 2 dim transformed lda[:, 1], 
alpha=0 .2) 
for length, vector in zip(lda.explained variance ratio_ , components): 
transformed_component = lda.transform([vector])[0] 
V = transformed component * .1 


draw_vector(iris 2_dim transformed_ lda.mean (axis=0), 
iris_2_dim transformed_ lda.mean(axis=0) + Vv, ax=ax[1]) 
ax[1] .axis('equal') 
ax[1] .set (xlabel='lda component 1', ylabel='lda component 2', 


title='Linear Discriminant Analysis Projected Data', 
KLINm={=107 10) > ylLimst{=3» 3)9) 


结果 如 下 图 所 示 。 
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注意 判别 式 并 不 与 数据 的 方差 一 致 ， 而 是 基本 与 之 垂直 : 其 实 符合 类 别 的 分 离 情 
况 。 另 外 ， 它 与 左右 两 侧 匣 尾 花 之 间 的 间隔 几乎 平行 。LDA 在 试图 捕捉 两 个 类 
别 的 分 离 情况 。 
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上 图 中 ， 我 们 可 以 看 见 原始 数据 集 的 scalings_ 向量 履 盖 在 数据 点 上 。 较 长 的 向 量 几 乎 与 
左下 的 山 芒 尾 ( setosa ) 和 右上 的 其 他 药 尾 花 之 间 的 间隔 平行 。 这 表明 LDA 在 尝试 指出 原始 坐标 
系 中 分 离 读 尾 花 类 别 的 最 佳 方 向 。 


需要 注意 的 是 ，LDA 的 scalings_ 属 性 并 不 像 PCA 的 那样 1 : 1 对 应 坐标 系 。 因 为 
scalings_ 的 目的 不 是 创造 新 的 坐标 系 , 而 是 指向 可 以 优化 类 别 可 分 性 的 最 佳 方向 。 我 们 不 会 像 
介绍 PCA 时 那样 详细 说 明 坐标 系 的 计算 。 我 们 只 需要 知道 , PCA 和 LDA 的 主要 区 别 在 于 : PCA 
是 无 监督 方法 ,捕获 整个 数据 的 方差 ; 而 LDA 是 有 监督 方法 ,通过 响应 变量 来 捕获 类 别 可 分 性 。 





































































































LDA 等 有 监督 特征 转换 的 局 限 性 在 于 ， 不 能 像 PCA 那样 处 理 聚 类 任务 。 这 是 因 
为 聚 类 是 无 监督 的 任务 ， 没 有 LDA 需要 的 响应 变量 。 


6.4 LDA 与 PCA: 使 用 芒 尾 花 数 据 集 


我 们 终于 接近 了 尾声 , 可 以 在 机 需 学 习 流 水 线 中 尝试 PCA 和 LDA 了 。 因 为 本 章 一 直 在 使 用 
芒 尾 花 数据 集 , 所 以 继续 用 这 个 数据 集 展示 LDA 和 PCA 作为 有 监督 和 无 监督 机 器 学 习 特 征 转换 
预 处 理 步 又 的 实用 性 。 


我 们 从 有 监督 的 机 器 学 习 开 始 ， 建 立 一 个 分 类 器 ， 从 4 个 定量 特征 中 识别 高 尾 花 的 种 类 。 
(1) 从 scikit-learn 中 导入 3 个 模块 : 


from sklearn.neighbors import KNeighborsClassifier 
from sklearn.pipeline import Pipeline 
from sklearn.model_ selection import cross_val_score 

















我 们 用 天 最 近邻 (KNN ) 作为 有 监督 模型 ， 用 流水 线 模块 将 KNN 模型 和 特征 转换 工具 结合 
起 来 ， 创建 一 个 可 以 使 用 Cross_val_score 模块 进行 交叉 验证 的 机 需 学 习 流 水 线 。 我 们 会 尝试 
几 个 不 同 的 机 器 学 习 流 水 线 ， 并 记录 性 能 。 

(2) 创建 3 个 变量 ， 其 中 一 个 代表 LDA， 一 个 代表 PCA ， 最 后 一 个 代表 KNN 模型 ; 
创建 有 一 个 主 成 分 的 PCA 模块 


single_pca = PCA(n_components=1) 

















创建 有 一 个 判别 式 的 LDA 模块 


single_ lda = LinearDiscriminantAnalysis(n_ components=1) 


实例 化 KNN 模型 
knn = KNeighborsClassifier(n neighbors=3) 

(3) 不 用 做 任何 转换 ,调用 KNN 模型 ,来 取 一 个 基线 准确 率 。 我 们 将 用 它 来 对 比 两 个 特征 转 
换算 法 : 
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# 不 用 特征 转换 ， 用 KNN 进行 交叉 验证 


knn_average = cross_val_score(knn，iris_X， iris y) .mean() 


# 这 是 基线 准确 率 。 如 果 什么 也 不 做 ，KNN 的 准确 率 是 98% 


knn_average 
0.9803921568627452 


(4) 要 击败 的 基线 准确 率 是 98.04%。 我 们 用 LDA， 只 保留 最 好 的 线性 判别 式 : 


lda_pipeline = Pipeline([('lda', single lda), ('knn', knn)]) 

















lda_average = cross_val_score(lda pipeline, iris Xx, iris y).mean() 


# 比 PCA 好 ， 比 原始 的 差 
lda_average 


0.9673202614379085 
(5) 看 来 一 个 线性 判别 式 不 够 击败 基线 准确 率 。 下 面试 试 PCA。 我们 的 猜测 是 ，PCA 不 会 优 
于 LDA， 因 为 PCA 不 会 像 LDA 那样 优化 类 别 可 分 性 : 


# 创建 执行 PCA 的 流水 线 
pca_pipeline = Pipeline([('pca', single pca), ('knn', knn)]) 























Tr 





pca_average = cross_ val_score(pca pipeline, iris x, iris y).mean() 
pca_average 

0.8941993464052288 

毫 无 疑问 ， 表 现 最 差 。 

试 试 加 一 个 LDA 判别 式 是 否 有 用 : 

# 试 试 有 两 个 判别 式 的 LDA 


lda_pipeline = Pipeline([('lda', LinearDiscriminantAnalysis(n_ components=2)), 
('knn', knn)]) 

















lda_average = cross_val_ score(lda pipeline, iris Xx, iris y) .mean() 


# 和 原来 的 一 样 


lda_average 
0.9803921568627452 
用 两 个 判别 式 就 可 以 达到 原始 的 准确 率 ! 不 错 , 但 是 我 们 希望 做 得 更 好 。 看 看 上 一 章 的 特征 


选择 模块 是 否 有 帮助 。 我 们 导入 selectKBest 模块 ， 看 看 统计 特征 选择 能 否 让 LDA 模块 做 到 
最 好 : 


# 用 特征 选择 工具 和 特征 转换 工具 做 对 比 


from sklearn.feature_ selection import SelectKBest 

















F 
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# 党 试 所 有 的 k 值 ， 但 是 不 包括 全 部 保留 

EG RK 主 过 | [2 B13 
# 构建 流水 线 
select pipeline = Pipeline([('select', SelectKBest (k=k)), ('knn', knn)]) 
# 交叉 验证 流水 线 
Select_average = cross_val_score(select_pipeline，1iris_X，1iris_y) .mean() 
print (k, "best feature has accuracy:", select_ average) 


1 best feature has accuracy: 0.9538398692810457 
2 best feature has accuracy: 0.9607843137254902 
3 best feature has accuracy: 0.9738562091503268 


到 目前 为 止 , 拥有 两 个 判别 式 的 LDA 暂时 领先 。 在 生产 中 ， 联 合 使 用 有 监督 和 无 监督 的 特 
征 转换 是 很 常见 的 。 我 们 设置 一 个 Gridsearch 模块 ， 找 到 下 列 参 数 的 最 佳 组 合 : 


口 缩放 数据 ( 用 或 不 用 均值 /标准 差 ); 
口 PCA 主 成 分 ; 

口 LDA 判别 式 ; 

口 KNN 邻居 。 





下 面 的 代码 会 建立 一 个 get_best_model_and_accuracy 了 浮 数 ， 向 其 传 入 一 个 模型 
( scikit-learn 或 其 他 模型 )、 一 个 字典 形式 的 参数 网 ， 以 及 xX 和 y 数据 集 , 会 输出 网 格 搜索 模块 的 
结果 。 输 出 是 模型 的 最 佳 表现 〈 准确 率 )、 获 得 最 佳 表现 时 的 最 好 参数 、 平 均 拟 合 时 间 ， 以 及 平 
均 预 测 时 间 : 


def get_best model_and accuracy (model, params, X, y): 





Mir 








grid = GridSearchCV (model, # 网 格 搜索 的 模型 
params, # 试验 的 参数 
error_score=0.)  # 如 果 出 错 ， 当 作 结 果 是 0 
grid. fit (x, Y) # 拟 合 模型 和 参数 


# 传统 的 性 能 指标 
print ("Best Accuracy: {}".format (grid.best_score_ )) 
# 最 好 参数 
print ("Best Parameters: {}".format (grid.best_ params_ )) 
# 平均 拟 合 时 间 ( 秒 ) 
print ("Average Time to Fit (s): 
{}".format (round (grid.cv_results_['mean fit time'] .mean(), 3))) 
# 平均 预测 时 间 ( 秒 ) 
# 显示 模型 在 实时 分 析 中 的 性 能 
print ("Average Time to Score (S) : 
{}".format (round (grid.cv_results_['mean score time'] .mean(), 3))) 


设置 好 接收 模型 和 参数 的 函数 后 ,我 们 可 以 组 合 使 用 缩放 、PCA、LDA 和 KNN 对 流水 线 进 
行 测试 了 : 


from sklearn.model_ selection import GridSearchCV 
iris_params = { 


























'preprocessing _ scale _ with std': [True, Falsel], 
'preprocessing _ scale _ with mean': [True, Falsel], 
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'preprocessing pca _n components':[1, 2, 3, 4], 


# 根据 scikit-learn 文档 ，LDA 的 最 大 n_components 是 类 别 数 减 1 
'preprocessing lda n components':[1, 2], 


'clf_n neighbors': range(1, 9) 
# 更 大 的 流水 线 
preprocessing = Pipeline([('scale', StandardSscaler()), 


('pca', PCA()), 
('lda', LinearDiscriminantAnalysis())]) 


iris_ pipeline = Pipeline(steps=[('preprocessing', preprocessing), 
('clf', KNeighborsClassifier())]) 


get_best_ model and accuracy (iris pipeline, iris_ params, iris Xx, iris_y) 





Best Accuracy: 0.9866666666666667 

Best Parameters: {'clf_n neighbors': 3, 'preprocessing lda n components': 2， 
'preprocessing_ pca_n components': 3, 'preprocessing scale_ with mean': True, 
'preprocessing scale with std': False} 

Average Time to Fit (s): 0.002 

Average Time to Score (s): 0.001 


最 好 的 准确 率 ( 接近 99% ) 结合 了 缩放 、PCA 和 LDA。 在 流水 线 中 结合 使 用 这 3 种 算法 并 
且 用 超 参 数 进行 微调 是 很 常见 的 。 因此, 在 生产 环境 下 ,最 好 的 机 带 学 习 流 水 线 实际 上 是 多 种 特 
征 工程 工具 的 组 合 。 




















6.5 小结 


总 结 一 下 ,PCA 和 LDA 都 是 特征 转换 工具 ， 用 于 找 出 最 优 的 新 特征 。LDA 特别 为 类 别 分 离 
进行 了 优化 ， 而 PCA 是 无 监督 的 ， 尝 试用 更 少 的 特征 表达 方差 。 一 般 来 说 ， 这 两 个 算法 在 流水 
线 中 会 一 同 使 用 ， 像 上 面 的 例子 那样 。 在 最 后 一 章 中 , 我 们 会 研究 两 个 案例 ,在 文本 聚 类 和 面部 
识别 软件 中 利用 PCA 和 LDA。 


PCA 和 LDA 都 是 很 强大 的 工具 ， 但 也 有 局 限 性 。 这 两 个 工具 都 是 线性 转换 ， 所 以 只 能 创建 
线性 的 边界 ， 表 达 数 值 型 数据 。 它 们 也 是 静态 转换 。 无 论 输 入 什么 ，LDA 和 PCA 的 输出 都 是 可 
预期 的 ， 而 且 是 数学 的 。 如 果 数 据 不 适合 PCA 或 LDA (数据 有 非 线性 特征 ， 例 如 是 圆 形 的 )， 
那么 无 论 我 们 怎么 进行 网 格 搜索 ， 这 些 算法 都 不 会 有 什么 帮助 。 

下 一 章 介绍 特征 学 习 算法 。 可 以 说 , 特征 学 习 算法 是 最 强大 的 特征 工程 算法 。 这 些 算法 可 以 
从 输入 的 数据 中 学 习 新 特征 , 不必 像 PCA 或 LDA 那样 对 数据 特性 有 所 假设 。 我 们 还 会 使 用 包括 
神经 网 络 在 内 的 复杂 结构 ， 实 现 最 高 级 别 的 特征 工程 。 
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在 探讨 特征 工程 技术 的 最 后 一 章 中 , 我 们 研究 目前 最 强大 的 一 种 工具 。 特征 学 习 算 法 可 以 接 
收 清 洗 后 的 数据 ( 是 的 ， 还 是 需 部 分 人 力 工 作 )， 通 过 数据 的 潜在 结构 创建 全 新 的 特征 。 听 
起 来 很 熟悉 ? 这 是 因为 上 一 章 也 是 这 样 定义 特征 转换 的 。 这 两 类 算法 的 差异 在 于 创建 新 特征 时 的 
参数 假设 。 

本 章 将 包括 如 下 主题 : 
口 数据 的 参数 假设 ; 
口 受 限 玻 尔 兹 曼 机 (RBM，restricted Boltzmann machine ); 
口 伯 努 利 受 限 玻 尔 效 曼 机 ( BernoulliRBM ); 
口 从 MNIST 中 提取 RBM 特征 ; 
口 在 机 融 学 习 流 水 线 中 应 用 RBM; 
口 学 习 文 本 特征 词 向 量 。 



























































7.1 数据 的 参数 假设 


参数 假设 是 指 算法 对 数据 形状 的 基本 假设 。 在 上 一 章 中 当 探 索 主 成 分 分 析 (PCA ) 时 ,我 们 
发 现 可 以 利用 算法 的 结果 产生 主 成 分 , 通过 矩阵 乘法 来 转换 数据 。 我 们 的 假设 是 , 原始 数据 的 形 
状 可 以 进行 (特征 值 ) 分 解 ， 并 且 可 以 用 单个 线性 变换 ( 矩阵 计算 ) 表示 。 但 如 果 不 是 这 样 呢 ? 
如 果 PCA 不 能 从 原始 数据 集中 提取 有 用 的 特征 ， 那 该 怎么 办 呢 ? PCA 和 线性 判别 分 析 (LDA ) 
这 样 的 算法 肯定 能 找到 特征 , 但 找到 的 特征 不 一 定 有 用 。 此 外 ,这 些 算法 都 基于 预定 的 算式 ,每 
次 肯定 输出 同样 的 特征 。 这 也 是 我 们 将 PCA 和 LDA 都 视 为 线性 变换 的 原因 。 


特征 学 习 算 法 希望 可 以 去 除 这 个 参数 假设 , 从 而 解决 该 问题 。 这 些 算法 不 会 对 输入 数据 的 形 
状 有 任何 假设 ， 而 是 依赖 于 随机 学 习 ( stochastic learning )。 意 思 是 ， 这 些 算法 并 不 是 每 次 输出 相 
同 的 结果 ， 而 是 一 次 次 按 轮 (epoch ) 检查 数据 点 以 找到 要 提取 的 最 佳 特 征 ， 并 且 拟 合 到 一 个 解 
决 方案 (在 运行 时 可 能 会 有 所 不 同 )。 
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6 关于 随机 学 习 和 随机 梯度 下 降 的 更 多 信息 ， 请 


这 样 ， 
种 复杂 的 想法 〈 台 

















新 特征 。 











特征 学 习 算法 可 以 绕 过 PCA 和 LDA 等 算法 的 参数 假设 , 解决 比 之 前 更 难 的 问题 。 
绕 过 参数 假设 ) 需要 使 用 复杂 的 算法 。 很 多 数据 科学 家 和 机 器 学 习 流 水 线 会 使 用 
深度 学 习 算法 ， 从 原始 数据 中 学 习 3 


我 们 假设 读者 已 经 对 神经 网 络 架 构 有 基本 的 了 解 ， 以 便 专注 地 利用 i 


参阅 《数据 科学 原理 》。 


这 





些 架构 进行 特征 学 习 。 






































这 些 架 
下 表 总 结 了 特征 学 习 和 特征 转换 的 基本 区 别 。 
需要 参数 使 用 简单 创建 新 特征 深度 学 习 
特征 转换 算法 是 是 是 否 
特征 学 习 算 法 否 一 般 否 是 一 般 是 
事实 上 , 特征 学 习 和 特征 转换 算法 都 创造 了 新 的 特征 集 , 意思 是 我 们 认为 这 两 类 算法 都 属于 





特征 提取 。 下 图 显示 了 这 种 关系 。 


特 

















征 提 取 是 特征 














特征 提取 
































学 习 和 特征 转换 的 超 集 。 两 类 算法 都 尝试 提取 数据 的 潜在 
将 原始 数据 转换 为 新 的 特征 集 








特征 学 习 和 特征 转换 都 属于 特征 提取 , 因为 这 两 类 算法 都 尝试 从 原始 数据 的 潜在 结构 创建 新 











的 特征 集 。 





然而 ， 这 两 


类 算法 的 工作 原理 截然 不 同 。 





7.1.1 非 参数 请 误 
需要 注意 的 是 ， 非 参数 模型 不 代表 模型 在 训练 中 对 数据 完全 没有 假设 。 


虽然 本 章 介绍 的 算法 不 需要 对 数据 形状 做 出 假设 ， 但 是 依然 可 以 对 数据 的 其 他 方面 进行 假 
设 ， 例 如 单元 格 的 值 等 。 








7.1.2 本章 的 算法 
本 章 中 我 们 重点 关注 以 下 两 个 特征 学 习 领域 。 


口 受 限 玻 尔 兹 曼 机 “RBM): 一 种 简单 的 深度 学 习 架 构 ， 根据 数据 的 概率 模型 学 习 一 定数 量 
的 新 特征 。 这 些 机 器 其 实 是 一 系列 算法 ,但 scikit-learn 中 只 实现 了 一 种 。BernoulliRBM 
可 以 作为 非 参 数 特 征 学 习 器 ， 但 是 顾名思义 ， 这 个 算法 对 单元 格 有 一 些 假设 。 
口 词 嵌 入 : 可 以 说 是 深度 学 习 在 自然 语言 处 理 /理解 /生成 领域 最 近 进 展 的 主要 推动 者 之 一 。 
词 柑 入 可 以 将 字符 串 ( 单词 或 短语 ) 投影 到 n 维特 征集 中 ， 以 便 理 解 上 下 文 和 措辞 的 细 
节 。 我 们 用 Python 的 gensim 包 准 备 词 修 入 ， 然 后 借助 预 训练 过 的 词 炭 和 人 来 研究 它 能 如 
何 增强 我 们 与 文本 的 交互 能 
这 些 例子 有 一 些 共同 点 : 都 涉及 从 原始 数据 中 学 习 新 特征 ,然后 利用 这 些 新 特征 加 强 与 数据 
交互 的 方式 。 对 于 后 两 个 例子 ， 我 们 需要 放弃 scikit-learn， 因 为 这 些 高 级 技术 在 scikit-learn 中 尚 
未 提供 。 
对 于 所 有 的 技术 , 我们 都 不 会 太 关 注 低层 的 原理 ， 而 是 更 关注 这 些 算法 如 何 解释 数据 。 我 们 
按 顺 序 开 始 介绍 ， 首 先是 唯一 有 scikit-lear 实现 的 算法 一 一 受 限 玻 尔 效 曼 机 系列 。 





















































7.2 ” 受 限 玻 尔 兹 曼 机 


RBM 是 一 组 无 监督 的 特征 学 习 算 法 ， 使 用 概率 模型 学 习 新 特征 。 与 PCA 和 LDA 一样, 我 
们 可 以 使 用 RBM 从 原始 数据 中 提取 新 的 特征 集 ， 用 于 增强 机 器 学 习 流 水 线 。 在 RBM 提取 特征 
之 后 使 用 线性 模型 ( 线性 回归 、 逻 辑 回归 、 感 知 机 等 ) 往往 效果 最 佳 。 

RBM 的 无 监督 性 质 很 重要 ， 所 以 它 和 PCA 的 相似 性 高 于 和 LDA 的 相似 性 。RBM 和 PCA 
算法 在 提取 新 特征 时 都 不 需要 真实 值 ， 可 以 用 于 更 多 的 机 器 学 习 问 题 。 


在 概念 上 说 ，RBM 是 一 个 浅 层 〈 两 层 ) 的 神经 网 络 ， 属 于 深度 信念 网 络 ( DBN ，deep belief 
network ) 算法 的 一 种 。 用 标准 的 术语 讲 ， 这 个 网 络 有 一 个 可 见 层 (第 一 层 )， 后 面 是 一 个 隐藏 层 
(第 二 层 )。 下 图 展示 了 网 络 中 仅 有 的 两 层 。 
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受 限 玻 尔 兹 曼 机 的 结构 ， 
图 代表 图 中 的 节点 





和 其 他 的 神经 网 络 一 样 , 这 两 层 中 都 有 节点 。 网 络 可 见 层 的 节点 数 和 输入 数据 的 特征 维 数 相 
同 。 在 下 面 的 例子 中 ， 我 们 的 图 像 是 28 x 28 的 ， 也 就 是 说 输入 层 有 784 个 节点 。 隐 藏 层 的 节点 




















数 是 人 为 选取 的 ， 代 表 我 们 想 学 习 的 特征 数 。 


7.2.1 不 一 定 降 维 





PCA 和 LDA 对 可 以 提取 的 特征 数量 有 严格 的 限制 。 对 于 PCA, 我 们 受 限于 原始 特征 的 数量 
(只 能 使 用 等 于 或 小 于 原始 特征 数 的 输出 )， 而 LDA 的 要 求 更 加 严格 ， 只 能 输出 类 别 的 数量 减 1。 


RBM 可 以 学 习 的 特征 数量 只 受 限于 计算 机 的 计算 能 力 ， 以 及 人 为 的 解释 。RBM 可 以 学 习 





























到 比 初始 输入 更 少 或 更 多 的 特征 。 具 体 要 学 习 的 特征 数量 取决 于 要 解决 的 问题 可 以 进行 网 格 


搜索 。 


7.2.2” 受 限 玻 尔 兹 曼 机 的 图 


目前 ,我 们 已 经 看 到 了 RBM 的 可 见 层 和 隐藏 层 , 但 是 还 不 清楚 RBM 如 何 学 习 特 征 。 每 个 
可 见 层 的 节点 从 要 学 习 的 数据 集中 取 一 个 特征 。 然后, 数据 通过 权重 和 偏差 .从 可 见 层 传递 到 隐 


EER 


藏 层 : 
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对 RBM 的 可 视 化 显示 了 单个 数据 点 如 何 通 过 RBM 的 单个 隐藏 节点 








对 RBM 的 可 视 化 显示 了 单个 数据 点 如 何 通过 图 一 一 通过 单个 隐藏 节点 .可 见 层 有 4 个 节点 ， 
代表 原始 数据 的 4 列 。 每 个 箭头 代表 数据 点 的 一 个 特征 , 从 RBM 第 一 层 的 4 个 可 见闻 点 中 穿 过 。 
然后 ， 每 个 特征 和 相关 的 权重 相 乘 ， 并 求 和 。 该 计算 也 可 以 用 数据 的 输入 向 量 和 权重 向 量 的 点 积 
表示 。 最 终 的 加 权 结 果 会 加 上 一 个 偏差 变量 ， 并 通过 激活 函数 (一般 使 用 S 形 函 数 ) 结果 储存 
在 名 称 为 a 的 变量 中 。 


下 面 的 Python 代码 显示 了 单个 数据 点 ( inputs ) 如 何 与 权重 向 量 相 乘 并 与 偏差 向 量 结合 ， 
以 创建 激活 变量 a: 


import numpy as np 
import math 




















# S 形 函 数 
def activation (x): 
return 1 / (1 + math.exp(-x)) 


3, 4]) 


inputs = np.array ([1, 2, 
[0.2 O32 0 000)) 


weights = np.array ([0.2, 
Dias se .5 


a = activation(np.dot (inputs.T, weights) + bias) 


print (a) 





0.9341341524806636 


在 真实 的 RBM 中 ， 每 个 可 见 节 点 都 和 所 有 的 隐藏 节点 相连 接 ， 如 下 图 所 示 。 
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多 个 输入 











因为 来 自 每 个 可 见 节点 的 输入 会 传递 到 所 有 的 隐藏 节点 ， 所 以 RBM 也 可 以 被 定义 为 对 称 的 
二 分 图 。 对 称 是 因为 可 见 节点 都 和 所 有 的 隐藏 节点 相连 接 。 二 分 图 表示 有 两 个 部 分 ( 两 层 )。 





7.2.3” 玻 尔 兹 曼 机 的 限制 
通过 上 图 ,我 们 看 见 了 层 与 层 之 间 的 连接 ( 层 间 连接 )， 但 是 没有 看 见 同 一 层 内 节点 的 连接 
































( 层 内 连接 )。 这 是 因为 没有 这 种 连接 。RBM 的 限制 是 ， 不 允许 任何 层 内 通信 。 这 样 ， 节 点 可 以 
独立 地 创造 权重 和 侦 差 ， 最 终 成 为 〈 和 希望 是 ) 独立 的 特征 。 








7.2.4 数据 重建 








在 网 络 的 前 向 传导 中 ， 我 们 看 见 数据 可 以 向 前 通过 网 络 〈 从 可 见 层 到 隐藏 层 )， 但 是 这 并 不 
能 解释 为 什么 RBM 可 以 不 依赖 真实 值 而 学 习 新 特征 。- RBM 的 学 习 来 自 于 可 见 层 和 隐藏 层 间 的 多 








重 前 后 向 传导 。 

















在 重建 阶段 ,我 们 调转 网 络 ， 把 隐藏 层 变 成 输入 层 ， 用 相同 的 权重 将 激活 变量 (a ) 反 向 传 

















递 到 可 见 层 , 但 是 





员 差 不 同 。 然 后 ， 用 前 向 传导 的 激活 变量 重建 原始 输入 向 量 。 下 图 显示 了 如 何 


使 用 相同 的 权重 和 不 同 的 偏差 ， 通 过 网 络 进行 反 向 激活 。 


























重建 是 新 的 输出 激活 是 新 的 输入 








RBM 用 这 种 方式 进行 自我 评估 。 通 过 将 激活 信息 进行 后 向 传导 并 获取 原始 输入 的 近似 值 ， 
该 网 络 可 以 调整 权重 ， 让 近似 值 更 接近 原始 输入 。 在 训练 开始 时 ,由 于 权重 是 随机 初始 化 的 〈 标 
准 做 法 )， 近 似 值 有 可 能 相差 很 大 。 然 后 ， 通 过 反 向 传播 ( 和 前 向 传导 的 方向 相同 ， 的 确 很 绕 ) 
调整 权重 , 最 小 化 原始 输入 和 近似 值 的 距离 。 我 们 重复 这 个 过 程 ， 直 到 近似 值 尽 可 能 接近 原始 的 
输入 。 这 个 过 程 发 生 的 次 数 叫 作 迭代 次 数 。 

这 个 过 程 的 最 终结 果 是 一 个 网 络 , 其 中 有 每 个 数据 点 的 第 二 自我 。 要 转换 数据 ,我们 只 需要 
将 数据 传人 该 网 络 ， 并 计算 激活 变量 , 输出 结果 就 是 新 的 特征 。 这 个 过 程 是 一 种 生成 性 学 习 ， 试 
图 学 习 一 种 可 以 生成 原始 数据 的 概率 分 布 ， 并 且 利 用 知识 来 提取 原始 数据 的 新 特征 集 。 

例如 ， 给 定 一 个 数字 (0~ 9 ) 的 图 片 ， 并 要 求 按 数字 进行 分 类 。 这 个 网 络 的 前 向 传导 会 问 : 
给 定 这 些 像素 ,应 该 是 什么 数字 ?后 向 传导 时 ,网络 会 问 : 给 定 一 个 数字 , 应 该 出 现 哪些 像素 ? 
这 称 为 联合 概率 ， 即 “给 定 x 时 有 y” 和 “给 定 y 时 有 x” 共同 发 生 的 概率 ， 也 是 网 络 两 个 层 的 
共享 权重 。 


下 面 介 绍 一 下 新 的 数据 集 ， 它 会 展示 RBM 在 特征 学 习 中 的 作用 。 










































































7.2.5 ”MNIST 数据 集 


MNIST 数据 集 包括 6000 个 0 ~9 的 手写 数字 图 像 ， 以 及 可 以 从 中 学 习 的 真实 值 。 它 和 之 前 
的 大 部 分 数据 集 没什么 区 别 , 我 们 都 希望 用 机 需 学 习 模 型 对 给 定数 据点 的 响应 变量 进行 分 类 。 主 
要 区 别 是 ， 此 处 使 用 很 低级 的 特征 ， 而 不 是 解释 性 很 好 的 特征 。 每 个 数据 点 包括 784 个 特征 ( 灰 
度 图 像 的 像素 值 )。 
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(1) 先导 入 包 : 


# 导入 NumPy 和 Matplotlib 

import numpy as np 

import matplotlib.pyplot as plt 
smatplotlib inline 


from sklearn import linear model, datasets, metrics 
# scikit-learn 的 RBM 

from sklearn.neural network import BernoulliRBM 
from sklearn.pipeline import Pipeline 




















(2) 我 们 导入 了 BernoulliRBM， 这 也 是 scikit-learn 中 目前 唯一 的 RBM 实现 。 顾 名 思 义 ,我 
们 需要 进行 一 点 预 处 理 ， 保 证 数据 符合 算法 所 需 的 假设 。 我 们 把 数据 集 导入 一 个 NumPy 数组 : 


# 从 CSV 中 创建 NumPy 数组 
images = npb.genfromtxt ('mnist_train.csv', delimiter=',') 


(3) 确认 一 下 数据 的 行列 数 : 
# 6000 个 图 像 和 785 列 ，28 像素 x 28 像素 + 1 个 响应 变量 


images.shape 
(6000, 785) 
(4) 785 由 784 像素 加 上 一 个 响应 变量 (第 一 列 ) 组 成 。 除 了 响应 变量 ,每 列 的 范围 都 是 0 ~ 


255， 表 示 像 素 强 度 : 0 代表 白色 背景 ，255 代表 全 黑 的 像素 。 我 们 可 以 将 第 一 列 和 其 他 列 分 开 ， 
提取 XxX 和 y 变量 


# 提取 XX 和 yy 变量 


images_Xx, images y = images[:,1:], images[:,0] 








# 值 很 大 ， 但 是 scikit-learn 的 RBM 会 进行 0 一 1 的 缩放 
np.min(images_X), np.max(images_Xx) 


(5) 可 以 看 看 第 一 个 图 像 ， 了解 一 下 要 处 理 的 数据 : 
plt.imshow (images_XxX[0] .reshape(28, 28), cmap=plt.cm.gray_r) 


images_y[0] 


绘制 结果 如 下 图 所 示 。 
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看 起 来 不 错 。 因 为 scikitlearn 的 RBM 实现 需要 0 ~ 1 的 值 ， 所 以 需要 一 些 预 处 理 。 
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scikit-learn 中 唯一 的 RBM 实现 是 BernoulliRBM ， 因 为 它 对 原始 数据 的 范围 进行 了 约束 。 伯 
努 利 分 布 要 求 数据 的 值 为 0 ~ 1。scikit-learn 的 文档 称 ， 该 模型 假定 输入 是 二 进 制 的 值 ， 或 者 是 
0~1 的 数 。 这 个 限制 是 为 了 表示 节点 的 值 就 是 节点 被 激活 的 概率 ， 从 而 可 以 更 快 地 学 习 特 征集 。 
为 了 进行 解释 ,我 们 修改 一 下 原始 数据 集 ， 只 考虑 硬 编码 的 黑白 像素 强度 。 这 样 ， 每 个 像素 的 值 
会 变 成 0 或 1 ( 白 或 黑 )， 让 学 习 更 加 稳健 。 我 们 分 两 步 完 成 ; 


(1) 将 像素 的 值 缩 放 到 0 ~ 1; 
(2) 如 果 超 过 0.5， 将 值 变 成 真 ， 否 则 为 假 。 
先 对 像素 值 进行 0 ~ 1 的 标准 化 : 


# 把 images_X 缩放 到 0~1 
images_X = images_X / 255 . 









































# 二 分 像素 ( 白 或 黑 ) 
images_X = (images_X > 0.5) .astype (float) 


nb.min(images_X) ，np.max(images_X) 
还 是 先 看 一 下 改变 后 的 数字 5: 


plt.imshow (images_X[0] .reshape(28, 28), cmap=plt.cm.gray_r) 











images_y[0] 


图 片 如 下 所 示 。 
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可 以 看 见 , 图像 中 的 模糊 消失 了 ,要 分 类 的 数字 很 清晰 。 现 在 我 们 开始 从 数字 数据 集中 提取 


特征 。 





7.3.1 从 MNIST 中 提取 PCA 主 成 分 

在 引入 RBM 前 ， 先 看 看 对 数据 集 应 用 PCA 时 会 如 何 。 像 上 一 章 那 样 ， 我 们 使 用 特征 (784 
黑 或 白 的 像素 )， 并 对 算 阵 进行 特征 值 分 解 ， 从 数据 集中 提取 特征 数字 ( eigendigit )。 

从 784 个 主 成 分 中 提取 100 个 并 绘制 出 来 ， 查 看 一 下 外 观 。 我 们 导入 PCA 库 ， 拟 合 100 个 
主 成 分 ， 并 且 创 建 一 个 Matplotlib 图 像 ， 显 示 前 100 个 主 成 分 : 


# 导入 PCA 模块 
from sklearn.decomposition import PCA 

















个 
































# 100 个 特征 数字 
pca = PCA(n_ components=100) 
pca.fit (images_ xXx) 


# 绘制 100 个 主 成 分 
plt.figure (figsize=(10, 10)) 
for i, comp in enumerate(pca.components_ ): 





plt.subplot (10, 10, i + 1) 

plt.imshow (comp.reshape((28, 28)), cmap=plt.cm.gray_r) 
plt .xticks(()) 

plt.yticks(()) 


plt.suptitle('100 components extracted by PCA') 
plt.show!() 


代码 的 输出 如 下 图 所 示 。 
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上 图 显示 了 当 协 方差 矩阵 被 缩放 成 原始 图 像 的 尺寸 时 , 特征 值 的 样子 。 这 个 例子 表示 了 对 图 


像 数据 集运 用 算法 时 提取 的 主 成 分 。 查看 PCA 主 成 分 从 图 像 数 据 集 获取 线性 变换 的 方式 很 有 趣 。 


每 个 主 成 分 都 试图 理 








解 图 像 的 某 个 “方面 "， 这 些 方面 可 以 转换 为 可 解释 的 知识 。 例 如 ， 第 一 个 





(也 是 最 重要 的 ) 特 生 


FE 图 像 有 可 能 捕捉 数字 0， 或 者 说 ， 数 字 看 起 来 是 不 是 像 0。 


很 明显 ， 前 10 个 主 成 分 似乎 保留 了 一 点 数字 的 形状 ， 之 后 图 像 好 像 没 什么 意义 了 。 最 后 ， 
我 们 看 到 的 好 像 只 是 黑白 像素 随机 混合 的 结果 。 这 有 可 能 是 因为 ,， PCA ( 和 LDA ) 是 参数 变换 ， 


从 图 像 等 复杂 数据 集 





( 如 图 像 ) 中 提取 信息 的 能 力 有 限 。 
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如 果 进 一 步 探讨 ， 可 以 看 到 前 30 个 主 成 分 解释 的 方差 可 以 捕捉 大 部 分 信息 : 


# 前 30 个 主 成 分 捕捉 64% 的 信息 





pca.explained variance ratio_[:30] .sum() 
0Q.637414137.8676752 
意思 是 ， 前 几 十 个 主 成 分 可 以 很 好 地 捕获 数据 本 质 ， 但 是 之 后 的 主 成 分 不 会 很 有 帮助 。 


下 面 的 碎 石 图 可 以 进一步 展示 PCA 的 主 成 分 如 何 捕 获 方差 : 
# 碎 石 图 






























































# 所 有 的 特征 数字 

full_pca = PCA(n_components=784) 

full_pca.fit (images_Xx) 

plt.plot (np.cumsum(full_pca.explained variance ratio_ )) 


# 100 个 主 成 分 捕获 约 90% 的 方差 


在 下 面 的 碎 石 图 中 ，PCA 主 成 分 的 数量 用 x 轴 表示 ， 解 释 的 累计 方差 数量 用 轴 表 示 。 
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上 一 前 中 说 到 ，PCA 的 转换 是 通过 一 个 线性 矩阵 操作 完成 的 一 一 将 PCA 模块 的 主 成 分 属性 




















和 数据 相 乘 。 我们 可 以 取 与 100 个 特征 拟 合 的 scikit-learn 的 PCA 对 象 ， 对 单个 MNIST 图 像 进行 
转换 ,以 便 再 次 展示 这 一 点 。 我们 将 转换 后 的 图 像 与 原始 图 像 乘 以 PCA 模块 components_ 属 性 
的 结果 进行 比较 : 








# 用 拟 合 过 的 PCA 对 象 对 第 一 个 图 像 进 行 转换 ， 提取 100 个 新 特征 


pca.transform(images_ Xx[:1]) 





# 然后 是 给 阵 磁 法 
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nb.dqot(images_X[:1]-images_X.mean(axis=0)，pca.components_.T) 


array (ltl ‘0.61090568; 1.36377972; 170242170385=2 .129662828 20.451810777 二 1454320495 7 
0.79434677，0.30551126，1.22978985，-0.72096767， 


array([[ 0.61090568, 1.36377972, 0.42170385, -2.19662828, -0.45181077, -1.320495 ， 
O079434677 O30551126;,. 1, 22978985, =0..72096767; 


7.3.2 ”从 MNIST 中 提取 RBM 特征 


现在 在 scikit-learn 中 创建 第 一 个 RBM 对 象 。 我 们 先 实例 化 一 个 模块 ， 从 MNIST 数据 集中 
提取 100 个 特征 。 


Witr 








我 们 将 verbose 参数 设置 为 Trrue， 以 查看 训练 过 程 ， 并 日 将 random_state 设置 为 0。 
参数 random_state 是 一 个 整数 ， 可 以 复 现 训练 结果 。 它 会 固定 随机 数 生成 器 ， 每 次 都 同时 随 
机 设置 权重 和 偏差 。 最 后 将 迭代 次 数 n_iter 设置 为 20， 也 就 是 我 们 希望 网 络 进行 的 前 后 向 传 
导 次 数 : 


实例 化 BernoulliRBM 

设置 randqom_state， 初 始 化 权重 和 偏差 

Verbose 是 True， 观看 训练 

n_iter 是 前 后 向 传导 次 数 

n_components 与 PCA 和 LDR 一 样 ， 代 表 我 们 希望 创建 的 特征 数 
n_components 可 以 是 任意 整数 ， 小 于 、 等 于 或 大 于 原始 特征 数 均 可 



































rbm = BernoulliRBM(random state=0, verbose=True, n_iter=20, n_components=100) 
rbm.fit (images_Xx) 


[BernoulliRBM] Iteration 1, pseudo-likelihood = -138.59, time = 0.80s 

[BernoulliRBM] Iteration 2, pseudo-likelihood = -120.25, time = 0.85s [BernoulliRBM] 
Iteration 3, pseudo-likelihood = -116.46, time = 0.85s ... [BernoulliRBM] Iteration 
18, pseudo-likelihood = -101.90, time = 0.96s [BernoulliRBM] Iteration 19， 
pseudo-likelihood = -109.99, time = 0.89s [BernoulliRBM] Iteration 20, 
pseudo-likelihood = -103.00, time = 0.89s 


训练 完成 后 ， 就 可 以 查看 结果 了 。RBM 和 PCA 一 样 有 components_ 属 性 : 


# RBM 也 有 components_ 
lenl(rbm.components_) 





100 


也 可 以 对 RBM 特征 进行 可 视 化 ， 查 看 它 和 特征 数字 的 区 别 : 


# 绘制 RBM 特征 (新 特征 集 的 表示 ) 
plt.figure (figsize=(10, 10)) 
for i, comp in enumerate(rbm.components_ ): 
plt.subplot (10, 10, i + 1) 
plt.imshow (comp.reshape((28, 28)), cmap=plt.cm.gray_r) 
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plt.xticks(()) 
plt.yticks(()) 
plt.suptitle('100 components extracted by RBM') 


plt.show!() 


输出 如 下 图 所 示 。 
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这 些 特 征 看 起 来 很 有 意思 。PCA 的 主 成 分 会 很 快 变 和 


号 扭曲 ， 但 是 RBM 特征 好 像 在 提取 不 同 


的 形状 和 笔划 。 乍 一 看 ， 好 像 有 些 特 生 


F 是 重复 的 (例如 第 15、63、64 和 70 个 





寺 征 )。 我 们 可 以 


快速 进行 一 次 NumPy 检查 ， 看 看 是 不 是 真 的 有 重复 的 特征 ，i 


下 面 的 代码 会 检查 rpbm.components_ 的 独立 值 数量 。 如 果 结 


个 特征 其 实 都 不 同 : 








还 是 这 些 特征 人 只 是 特别 相 似 o 


就 代表 RBM 的 每 

















征 100， 
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# 好 像 有 些 特征 一 样 
# 但 是 其 实 所 有 的 特征 都 不 一 样 (虽然 有 的 很 类 似 ) 


np.unique (bm.components_ .mean(axis=1)) .shape 


(100,) 


所 有 的 特征 都 是 唯一 的 ,我 们 可 以 用 PCA 的 那 种 方式 , 用 RBM 的 transfornm 方法 转换 数据 : 
# 用 玻 尔 座 曼 机 转 挨 数 字 5 

















image_new_features = rbm.transform(images_XxX[:1]).reshape(100,) 
image_new_features 


array ([ 2.50169424e-16, 7.19295737e-16, 2.45862898e-09, 4.48783657e-01, 
1.64530318e-16, 5.96184335e-15, 4.60051698e-20, 1.78646959e-08, 2.78104276e-23,， 


可 以 看 见 ， 这 些 特征 的 使 用 方式 和 PCA 中 有 所 不 同 ， 所 以 简单 的 矩阵 乘法 不 会 像 调 用 
transfornm 方法 那样 产生 相同 的 转换 : 

# 不 是 简单 的 算 阵 来 法 了 

# 使 用 神经 网 络 架构 ( 几 个 矩阵 操作 ) 来 转换 特征 


nb.dqot(images_X[:1]-images_X.mean(axis=0)，Trbm.components_.T) 


array(t[l[ ~3-60557365; ~10;,30403384, =6.94375031, 14:10772267, =6568343281， 
-5.72754674, -7.26618457, -26.32300164, 


现在 我 们 有 100 个 新 特征 ， 而 且 进 行 了 观察 。 下 面 就 在 数据 上 应 用 特征 。 


从 第 一 个 图 像 (数字 5 ) 中 提取 20 个 最 有 代表 性 的 特征 : 
# 最 有 代表 性 的 特征 


top_features = image new_ features.argsort()[-20:][::-1] 





print (top_features) 
image_new_features[top_ features] 


[63 :62- 69: T1434 56.:83 21°29: 82 28 92 41 L549 66° 30 79 TY 94] 
array ([1. pe Ne A US Ry 
Us ys ;0'%9.9'9.9.9.999., 09.9.999956:,. .0%:999.99315:, 
0.9999786 ，0.99987813, 0.99977524, 0.99917175, 0.98776495,， 
0.97600556, 0.97446621, 0.94470164, 0.93149911, 0.4948913 ]) 


本 例 中 有 7 个 特征 ， 可 以 达到 100% 的 RBM。 在 图 中 ,这 意味 着 将 784 像素 传人 可 见 层 ， 
全 点 亮 了 节点 56、63、62、14、69、83 和 82。 我 们 隔离 这 些 特征 : 


# 绘制 最 有 代表 性 的 RBM 特征 (新 特征 集 的 表示 ) 

plt.figure (figsize=(25, 25)) 

for i, comp in enumerate (top_features): 
Dlt SUBpLGt(S 4 生计 7) 
plt.imshow (rbm.components_[comp] .reshape((28, 28)), cmap=plt.cm.gray_r) 
plt.title("Component {}, feature value: {}".format (comp, round (image_ 
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new_features[comp], 2)), fontsize=20) 


plt.suptitle('Top 20 components extracted by RBM for first digit', fontsize=30) 


输出 如 下 图 所 示 。 


Top 20 components extracted by RBM for first digit 











,#56, Value: 1.0 ,#63, Value: 1.0 ,#62, Value: 1.0 ,#14, Value: 1.0 


,#69, Value: 1.0 ,#83, Value: 1.0 ,#82, Value: 1.0 
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#45, Value: 1.0 











0 5 


##28 Value: 0.52 


区 
5 加 五 


J 
#18 #58, Value: 0.01 


#18, Value: 0.81 





这 里 面 的 某 些 特征 十 分 有 意义 。 例 如 ,#45 好 像 隔离 了 数字 5 的 左上 角 ， 而 #21 隔离 了 底部 
的 圆圈 。#82 和 #34 好 像 直接 识别 出 了 数字 5。 我 们 看 看 数字 5 最 差 的 20 个 特征 是 什么 样 的 : 


# 最 差 的 特征 


bottom features = image new_ features.argsort()[:20] 





plt.figure (figsize=(25, 25)) 

for i, comp in enumerate (bottom features): 
DltisubBLlot(SD., Ww; TI 4 1) 
plt.imshow (rbm.components_[comp] .reshape((28, 28)), 
plt.title("Component {}, feature value: {}".format (comp, round(image_ 


cmap=plt .cm.gray_r) 
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new_features[comp], 2)), fontsize=20) 
plt.suptitle('Bottom 20 components extracted by RBM for first digit', fontsize=30) 


plt.show!() 
输出 如 下 图 所 示 。 


Bottom 20 components extracted by RBM for first digit 


办 12, Value: 0.0 ,人 #76， Value: 0.0 ,#8, Value: 0.0 ,#84, Value: 0.0 


5 
1 
| Ea 
a 
有» 


#35, Vaiue: 0.0 #88, Value: 0. #91, Value: 0.0 


10 。 瑟 


,#72 Vaiue: 0.0 


#51, Value: 0.0 


并 40， Vaiue: 0.0 





#13、#4 和 #97 等 好 像 是 别 的 数字 ， 而 不 是 5。 这 些 特征 没有 效果 是 有 道理 的 。 





7.4 在 机 器 学 习 流 水 线 中 应 用 RBM 


当然 了 ， 我 们 不 仅 希 望 可 视 化 RBM， 并 且 和 希望 在 机 顺 学 习 流水 线 中 应 用 它 ， 还 希望 看 见 特 
征 学 习 的 具体 结果 。 因 此 ， 要 创建 并 运行 三 条 流水 线 : 
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口 原始 像素 强度 上 的 逻辑 回归 模型 ; 
口 PCA 主 成 分 上 的 逻辑 回归 ; 
口 RBM 特征 上 的 逻辑 回归 。 


每 条 流水 线 都 会 对 (PCA 和 RBM 的 ) 多 个 特征 和 参数 c 进行 网 格 搜索 ， 以 进行 逻辑 回归 。 
我 们 从 最 简单 的 流水 线 入 手 ， 在 原始 数据 上 运行 逻辑 回归 ， 看 看 线性 模型 能 否 区 分 数字 。 




















7.4.1 对 原始 像素 值 应 用 线性 模型 


首先 ,在 原始 像素 上 运行 逻辑 回归 ， 获 取 一 个 基线 模型 。 我 们 想 看 看 ，PCA 和 RBM 能 和 否 让 
同一 个 线性 分 类 器 表现 得 更 好 ( 或 更 差 ) 如 果 我 们 发 现 提取 的 特征 性 能 更 好 〈 就 线性 模型 的 准 
确 率 而 言 )， 那 么 就 可 以 确定 ， 特 征 工程 对 流水 线 有 正面 作用 。 

首先 实例 化 模块 : 

# 导入 逻辑 回归 和 网 格 搜索 模块 











from sklearn.linear model import LogisticRegression 
from sklearn.model_ selection import GridSearchCV 


# 创建 逻辑 回归 
lr = LogisticRegression\() 
params = {'C':[le-2, le-l1, le0, lel, le2]} 


# 实例 化 网 格 搜索 类 
grid = GridSearchCV (lr, params) 


然后 就 可 以 在 原始 图 像 数据 上 进行 拟 合 了 。 这 样 可 以 大 体 知道 , 原始 数据 在 机 器 学 习 流 水 线 
中 的 效果 如 何 : 


# 拟 合 数据 
grid.fit(images_Xx, images_y) 











# 最 佳 参 数 
grid.best params_, grid.best_score_ 


(fC Ol D3908333333333334) 


逻辑 回归 本 身 的 效果 就 很 好 ， 用 原始 数据 就 达到 了 89.08% 的 交叉 验证 准确 率 。 





7.4.2 ”对 提取 的 PCA 主 成 分 应 用 线性 模型 


我 们 看 看 加 入 PCA 后 能 不 能 提高 准确 率 。 首 先 设置 变量 。 这 次 需要 创建 一 个 scikit-learn 流 
水 线 对 象 ， 用 于 容纳 PCA 模块 和 线性 模型 。 保 持 线性 分 类 器 的 参数 不 变 ， 寻 找 PCA 的 新 参数 ， 
看 看 10、100 和 200 个 主 成 分 哪个 最 好 。 试 着 花 时 间 猜 一 下 结果 ( 提示 : 想 想 碎 石 图 中 的 方差 ): 
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用 PCA 提取 特征 


lr = LogisticRegression() 
pca = PCA() 


设置 流水 线 的 参数 
params = {'clf_C':[le-1, le0, lell], 
'pca_n components': [10, 100, 200]} 


创建 流水 线 
pipeline = Pipeline([('pca', pca), ('clf', lr)]) 








实例 化 网 格 搜索 类 
grid = GridSearchCV (pipeline, params) 


现在 可 以 在 原始 图 像 数 据 上 拟 合 grigsearch 对 象 了 。 注 意 , 流水线 会 自动 从 原始 像素 数 
据 中 提取 特征 ， 并 进行 转换 : 


拟 合 数据 
grid.fit (images_Xx, images_y) 











最 佳 参 数 
grid.best_params_, grid.best_score_ 


({'clf__C': 10.0, 'pca_n components': 100}, 0.8876666666666667) 


结果 是 88.77% 的 交叉 验证 准确 率 ,， 稍 差 一 点 。 如 果 进 行 了 思考 , 那么 100 比 10 和 200 表现 
更 好 并 不 令 人 人 惊讶。 在 上 一 节 的 碎 石 图 中 ，30 个 主 成 分 解释 了 64% 的 变化 ， 所 以 10 个 主 成 分 肯 
定 不 足以 解释 图 像 。 在 100 个 主 成 分 后 , 碎 石 图 开始 变 平 ， 代 表 在 第 100 个 主 成 分 后 ， 解 释 的 方 
差 没有 增加 太 多 。 因 此 200 个 主 成 分 太 多 了 , 会 导致 过 拟 合 。 综 上 所 述 ，100 个 PCA 主 成 分 是 最 
佳 数量 。 需 要 注意 ,我 们 可 以 进一步 尝试 调整 超 参 ， 寻 找 更 好 的 PCA 主 成 分 数量 。 不 过 目前 到 
此 为 止 ， 接 下 来 使 用 RBM 特征 。 





















































7.4.3 ”对 提取 的 RBM 特征 应 用 线性 模型 


最 好 的 PCA 也 不 能 在 准确 率 上 打败 逻辑 回归 。 我 们 看 看 RBM 的 表现 如 何 。 在 流水 线 中 保持 
逻辑 回归 的 参数 相同 , 还 是 从 10、100 和 200 中 寻找 最 佳 的 特征 数 ( 和 了 PCA 流水 线 一 致 ), 注意， 
我 们 可 以 尝试 查找 超过 原始 像素 数 的 特征 数 ( 超过 784 )， 但 是 这 里 不 进行 试验 。 














心 z 7 量 


还 是 先 设 定 变量 : 





# 用 RBM 学 习 新 特征 
rbm = Bernou1l1iRBM(Trandom_state=0) 


# 设置 流水 线 的 参数 
params = {'clf_C':[le-1, le0, lell], 
'rbhm n components': [100, 200] 


} 
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# 创建 流水 线 
pipeline = Pipeline([('rbm', rbm), ('clf', lr)]) 


# 实例 化 网 格 搜索 类 
grid = GridSearchCV (pipeline, params) 


在 原始 数据 上 进行 网 格 搜索 ， 显 示 最 佳 的 特征 数 : 


# 拟 合 数据 
grid.fit (images_x, images_y) 





# 最 佳 参 数 
grid.best_ params_, grid.best_score_ 


({'clf_C': 1.0, 'rbm n components': 200}, 0.9156666666666666) 


RBM 模块 的 交叉 验证 准确 率 是 91.57%, 能 从 数字 中 提取 200 个 新 特征 ,除了 引入 BernoulliRBM 
模块 外 ， 不 进行 任何 操作 就 可 以 增加 近 2.5% 的 准确 率 。( 很 多 了 ! ) 








最 佳 特征 数 是 200 表示 我 们 可 以 试 着 提取 超过 200 个 特征 ,获得 更 好 的 性 能 。 你 
可 以 把 这 当 作 一 个 练习 。 





上 面 的 例子 证 明了 ， 面 对 非常 复杂 的 任务 (例如 图 像 识 别 、 音 频 人 处理 和 自然 语言 处 理 )， 特 
征 学 习 算 法 很 有 效 。 这 些 大 数据 集 有 很 多 隐藏 的 特征 ， 难 以 通过 线性 变换 (如 PCA 或 LDA) 提 
取 ， 但 是 非 参数 算法 (如 RBM ) 可 以 。 
































7.5 学 习 文 本 特征 : 词 向 量 


解决 图 像 问题 后 ， 第 二 个 特征 学 习 的 例子 是 文本 和 自然 语言 处 理 。 当 机 器 学 习 读 写 时 ,会 遇 
到 一 个 很 大 的 问题 , 那 就 是 上 下 文 的 处 理 。 在 前 面 的 章节 中 , 我 们 可 以 计算 每 个 文档 中 单词 出 现 的 
次 数 , 从 而 对 文档 进行 向 量化 处 理 , 并 将 向 量 输入 机 咒 学 习 流 水 线 中 。 通过 构建 基于 数量 计算 的 特 
征 , 我 们 可 以 在 有 监督 的 机 器 学 习 流水 线 中 使 用 文本 。 这 个 办 法 比较 有 效 , 但 是 有 一 个 问题 。 我 们 
仅仅 是 按 词 袋 (BOW，bag of words ) 理解 文本 。 这 意味 着 我 们 只 是 把 文档 看 作 一 组 无 序 的 单词 。 
更 重要 的 是 , 每 个 单词 自身 都 没有 意义 。 在 使 用 CountVectorizer 和 TfidfVectorizer 


时 , 文档 只 是 单词 的 集合 而 已 。 因此 , 我 们 将 注意 力 从 scikit-learn 转移 到 一 个 叫 gensim 的 包 上 ， 
计算 词 伐 入 。 
































7.5.1 词 租 入 


到 目前 为 止 ， 我 们 可 以 通过 将 文档 ( 推 文 、 评 论 、URL 等 ) 拆 分 为 一 定数 量 的 词 项 (单词 
和 n-gram 等 ) 并 将 词 项 作为 特征 ， 用 scikit-learn 将 文档 转换 为 向 量 形式 。 假 设 有 1583 个 文档 ， 
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用 countVvectorizer 学 习 前 1000 个 词 项 ， 且 ngram_range 是 1~S$， 那么 会 得 到 一 个 1583 x 
1000 的 矩阵 ， 其 中 每 行 代 表 一 个 文档 ， 每 列 代表 文档 的 n-gram 信息 。 我 们 能 不 能 进行 更 深 一 步 
的 理解 呢 ?” 如 何 让 机 器 找 出 单词 在 上 下 文中 的 含义 ? 

举 个 例子 ， 如 果 我 们 问 以 下 问题 ， 答 案 可 能 如 下 所 示 。 

Q: 对 于 一 个 国王 ， 如 果 将 性 别 从 男 改 为 女 ， 会 得 到 什么 ? 

人 A: 女王 

Q: 伦敦 之 于 英国 相当 于 巴黎 之 于 ? 

A: 法 国 








作为 人 类 , 你 会 觉得 这 些 问题 很 简单 , 但 是 机 器 如 何在 不 知道 单词 在 上 下 文中 的 含义 时 做 出 
解答 呢 ? 实际 上 ， 这 就 是 我 们 在 自然 语言 处 理 任 务 中 面临 的 最 大 挑战 之 一 。 

词 舱 入 是 帮助 机 器 理解 上 下 文 的 一 种 方法 。 词 诅 入 是 单词 在 维特 征 空间 中 的 向 量化 , 其 中 
n 代表 单词 潜在 特征 的 数量 。 意 思 是 ,词汇 表 中 的 每 个 单词 不 只 是 字符 串 ， 也 是 向 量 。 例 如 ， 我 
们 提取 每 个 单词 的 n=5 个 特征 , 那么 词汇 表 中 的 每 个 单词 都 会 变 成 1 x5 的 向 量 。 向 量化 的 结 
有 可 能 是 这 样 的 : 

# 词 谋 入 的 例子 












































kine: = nD .Treay tt.2. = Dy dy 2 9) 
man = np.array ([-.5, .2, -.2, .3, 0.]) 
Womatr = nD aEra OT 3 wa 26n wl] ) 
queen = np.array ([ 1.4, -1. ,， 1.2, 0.5, -0.8]) 


向 量化 后 , 我 们 就 可 以 解决 这 样 的 问题 对 于 一 个 国王 ， 如 果 将 性 别 从 男 改 为 女 ， 会 得 到 什 
? 操作 如 下 : 


从 


国王 一 男 + 女 





代码 是 : 

np.array_equal ((king - man + woman), queen) 
True 

看 起 来 很 简单 ， 但 是 有 几 个 注意 事项 : 


口 上 下 文 (形式 为 词 谋 入 ) 随 语料库 的 变化 而 不 同 ， 单 词 的 含义 也 是 一 样 ， 所 以 静态 的 词 
嵌入 不 一 定 是 最 有 用 的 ; 
口 词 腻 入 依赖 于 要 学 习 的 语料库 。 


通过 词 朋 入 ,我 们 可 以 对 单个 单词 进行 很 精确 的 计算 ,以 实现 在 上 下 文中 的 理解 。 
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7.5.2 ”两 种 词 藤 入 方法 : Word2vec 和 GloVe 


词 租 入 主要 有 两 种 算法 , 分 别 是 Word2vec 和 GloVe。 二 者 都 通过 学 习 大 型 i 
档 的 集合 ) 来 产生 词 舰 和信， 主要 的 区 别 在 于 (出 自 斯 坦 福 大 学 的 ) GloVe 算法 通过 一 系列 矩阵 统 






































吾 料 库 〈 文本 文 


计 进 行 学 习 ， 而 (出 自 Google 的 ) Word2vec 通过 深度 学 习 进 行 学 习 。 这 两 种 方法 各 有 优 缺 点 ， 








本 书 主要 使 用 Word2vec 算法 学 习 词 能 入 。 


7.5.3 ”Word2vec: 另 一 个 浅 层 神经 网 络 











为 了 学 习 和 提取 词 舱 入 ，Word2vec 会 实现 另 一 个 浅 层 神经 网 络 。 这 次 我 们 不 是 一 股 脑 地 将 
数据 输入 可 见 层 ， 而 是 故意 输入 正确 的 数据 ， 以 提供 正确 的 词 谍 入 。 大 致 来 讲 ， 可 以 想象 该 神经 











网 络 具 有 下 图 所 示 的 架构 。 












































P{context="Jupiter") 


p{context=—"dse") 


p{context="math") 


p{context="test") 











和 RBM 一 样 , 我 们 有 一 个 可 见 的 输入 层 和 一 个 隐藏 层 。 输 入 层 和 和 希望 学 习 的 词汇 长 度 相 同 。 





如 果 语 料 库 有 几 百 万 词 ， 但 是 我 们 只 需要 学 习 其 中 一 小 部 分 ， 那 么 这 








文 种 设 定 很 有 用 。 在 上 











我 们 希望 学 习 5000 个 单词 的 上 下 文 。 图 中 的 隐藏 层 代 表 对 于 每 个 单词 要 学 习 的 打 


将 词 伐 人 300 维 的 空间 中 。 





这 个 神经 网 络 和 之 前 RBM 神经 网 络 的 主要 区 别 在 于 存在 输出 层 。 注 意 ， 











层 的 节点 数量 一 样 。 这 不 是 巧合 。 词 甬 人 模型 通过 参考 词 的 存在 与 否 ， 














图 中 ， 


寺 征 数 。 本 例 要 


图 中 输出 层 和 输入 


预测 相 邻 的 单词 。 例 如 ， 
如 果 要 预测 “ 微 积分 ”一 词 ， 那 么 我 们 希望 mnath 节点 点 亮 最 多 。 这 基本 上 是 监督 学 习 算法 的 大 
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致 想法 。 


然后 , 我 们 在 这 个 结构 上 训练 , 通过 传人 单词 的 独 热 向 量 ， 提 了 隐藏 层 的 输出 向 量 并 将 其 作 
为 潜在 结构 ， 最 终 学习 300 维 的 单词 表示 。 在 生产 中 ， 因 为 输出 节点 非常 多 ， 所 以 上 图 结构 的 效 
率 极 低 。 为 了 加 速 运 算 , 我 们 使 用 不 同 的 损失 函数 来 利用 文本 的 结构 特征 。 




















7.5.4 创建 Word2vec 词 租 入 的 gensim 包 
我 们 不 会 写 一 个 完整 的 词 艇 入 神经 网 络 ， 而 是 用 名 为 gensim 的 Python 包 帮 我 们 完成 工作 : 


# 导入 gensim 包 
import gensim 


gensim 可 以 在 文本 语料库 上 运行 前 面 的 神经 网 络 ， 只 需要 几 行 代码 就 可 以 获得 词 认 人 。 我 
们 导入 一 个 标准 语料库 来 看 看 效果 。 先 在 笔记 本 上 设置 一 个 日 志 记录 器 , 以 便 查 看 详细 训练 过 程 : 


import logging 






































logging.basicConfig(format='%S(asctime)s : %S(levelname)s : S$(message)s', 
level=logging.INFO) 


然后 创建 语料库 : 
from gensim.models import word2vec, Word2vec 


sentences = word2vec.Text8Corpus('../data/text8') 


注意 word2vec， 这 是 计算 词 戏 入 的 特定 算法 ， 也 是 gensim 的 主要 算法 ， 是 词 舱 入 的 标准 
之 一 。 


gensim 需要 可 迭代 对 象 (列表 、 生 成 器 、 元 组 等 ), 里 面 是 切 分 好 的 句子 。 设置 好 这 个 变量 
后 ， 就 可 以 让 gensim 开展 学 习 工 作 了 : 

# 实例 化 gensim 模块 

# min-count 忽略 出 现 次 数 小 于 该 值 的 单词 

# Size 是 要 学 习 的 单词 维 数 


model = gensim.models.Word2vec (sentences, min count=1, size=20) 























2017-12-29 16:43:25,133 : INFO : collecting all words and their counts 

2017-12-29 16:43:25,136 : INFO : PROGRESS: at sentence #0, processed 0 words, keeping 
0 word types 

2017-12-29 16:43:31,074 : INFO : collected 253854 word types from a corpus of 17005207 
raw words and 1701 sentences 

2017-12-29 16:43:31,075 : INFO : Loading a fresh vocabulary 

2017-12-29 16:43:31,990 : INFO : min count=1 retains 253854 unique words (100% of 
original 253854, drops 0) 

2017-12-29 16:43:31,991 : INFO : min count=1 leaves 17005207 word corpus (100% of 
original 17005207, drops 0) 

2017-12-29 16:43:32,668 : INFO : deleting the raw counts dictionary of 253854 items 
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2017-12-29 16:43:32,676 : INFO : sample=0.001 downsamples 36 most-common words 
2017-12-29 16:43:32,678 : INFO : downsampling leaves estimated 12819131 word corpus 
(5A Of BILior -T7005207) 

2017-12-29 16:43:32,679 : INFO : estimated required memory for 253854 words and 20 
dimensions: 167543640 bytes 

2017-12-29 16:43:33,431 : INFO : resetting layer weights 

2017-12-29 16:43:36,097 : INFO : training model with 3 workers on 253854 vocabulary 
and 20 features, using sg=0 hs=0 sample=0.001 negative=5 window=5 

2017-12-29 16:43:37,102 : INFO : PROGRESS: at 1.32% examples, 837067 words/s, in_ qsize 
5, out_qsize 0 

2017-12-29 16:43:38,107 : INFO : PROGRESS: at 2.61% examples, 828701 words/s, 

2017-12-29 16:44:53,508 : INFO : PROGRESS: at 98.21% examples, 813353 words/s, 

in_qsize 6, out_qsize 0 2017-12-29 16:44:54,513 : INFO : PROGRESS: at 99.58% examples, 
813962 words/s, in gqsize 4, out qsize 0 

... 2017-12-29 16:44:54,829 : INFO : training on 85026035 raw words (64096185 effective 
words) took 78.7s, 814121 effective words/s 


学 习 好 了 。 如 果 语 料 库 很 大 ， 有 可 能 会 需要 很 长 时 间 。 现 在 gensim 的 拟 合 已 经 完成 ， 可 供 
使 用 。 我 们 可 以 将 单个 单词 传人 word2vec 对 象 ， 查 看 词 戏 人 : 
# 单个 单词 的 嵌入 


model .wv['king'] 








array ([-0.48768288, 0.66667134, 2.33743191, 2.71835423, 4.17330408, 2.30985498,， 
1.92848825, 1.43448424, 3.91518641, -0.01281452, 3.82612252, 0.60087812, 6.15167284, 
水 015054 8 二 一 二 65 人 7.67512 4 858535773 3 .45778084, 5.025083361. -2.98040175., 2.:37563372 
dtype=float32) 


gensim 模块 的 内 置 方 法 可 以 充分 利用 词 艇 入 。 例 如 ， 之 前 关于 国王 的 问题 可 以 用 
most_similar 方法 解决 . 


# 女 + 国王 - 男 = 女王 








model.wv.most_similar(positive=['woman', 'king'], negative=['man'], topn=10) 
[(u'emperor', 0.8988120555877686), (u'prince', 0.87584388256073), (u'consul', 
0.8575721979141235)，,， (u'tsar', 0.8558996319770813),， (u'constantine', 


0.8515684604644775), (u'pope', 0.8496872782707214), (u'throne', 0.8495982885360718)， 
(u'elector', 0.8379884362220764), (u'judah', 0.8376096487045288), (u'emperors', 
0.8356839418411255)] 

不 太 好 ， 没 有 得 到 期 望 的 sueen。 我 们 试 试 关 于 巴黎 的 问题 : 

# 伦敦 之 于 英国 相当 于 巴黎 之 于 ? 


model.wv.most_similar(positive=['Paris', 'England'], negative=['London'], topn=1) 


KeyError: "word 'Paris' not in vocabulary" 


看 样子 Paris 这 个 词 还 没有 被 学 到 ， 因 为 它 不 在 语料库 中 。 我 们 已 经 可 以 看 到 这 个 程序 的 
局 限 性 了 : 词 舱 入 会 受 限于 选择 的 语料库 和 计算 词 租 入 的 机 器 。 在 data 目录 中 , 我 们 提供 了 一 个 
经 过 预 训练 的 词汇 表 GoogleNews-vectors-negative300.bin, 包括 Google 所 收录 网 站 上 的 300 万 个 
单词 ， 每 个 单词 学 习 300 个 维度 。 
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我 们 可 以 使 用 gensim 的 内 置 导入 工具 ， 导 入 这 些 预 训练 的 词 舱 入 : 
model = 


gensim.models.KeyedVectors.load word2vec format('../data/GoogleNews-vectors- 
negative300.bin', binary=True) 


# 300 万 单词 
len (model .wv .vocab) 
3000000 




















这 些 词 艇 入 是 用 家 用 计算 机 无 法 企及 的 强大 机 融 训 练 而 成 的 。 现 在 可 以 尝试 我 们 的 问题 了 : 
并 相国 于 吉本 关 于 


model.wv.most_similar (positive=['woman', 'king'], negative=['man'], topn=1) 


('queen', 0.7118192911148071)] 


伦敦 之 于 英国 相当 于 巴黎 之 于 ? 


model.wv.most_similar (positive=['Paris', 'England'], negative=['London'], topn=1) 











('France', 0.667637825012207)] 


好 极 了 ! 这 些 词 艇 和 似乎 已 经 得 到 了 足够 的 训练 , 可 以 解决 复杂 的 单词 问题 了 。 和 前 面 一 样 ， 
most_similar 方法 会 返回 词汇 表 中 与 所 提供 单词 最 相似 的 词 项 。 正 列 表 (positive) 中 的 单 


词 是 要 相 加 的 向 量 ， 负 列表 ( negative ) 中 的 单词 是 要 从 结果 中 减 去 的 。 下 图 是 使 用 词 向 量 提 
取 含义 的 直观 描述 。 





























Word 2 Vec Play 


























这 里 ， 我 们 从 国王 的 向 量 表示 开始 ， 加 上 女性 概念 〈 向 量 )， 然 后 减 去 男性 概念 《加 上 负 向 
量 )， 从 而 获得 用 虚线 表示 的 向 量 。 这 个 向 量 和 女王 的 向 量 表示 最 为 接近 ， 所 以 : 
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国王 + 女 一 男 = 女王 





gensim 还 有 很 多 可 利用 的 方法 , 例如 doesnt_match。 这 个 方法 会 选 出 不 属于 列表 的 单词 ， 
做 法 是 将 和 其 他 单词 平均 值 最 不 接近 的 单词 分 离开 来 。 例如, 我们 输入 4 个 单词 其 中 3 个 是 动 
物 、1 个 是 植物 ， 看 看 能 否 选 出 不 属于 同一 类 别 的 单词 : 

# 选 出 不 属于 同一 类 别 的 单词 


model.wv.doesnt_match("duck bear cat tree".split()) 























二 天 全 全 


这 个 包 也 可 以 计算 单词 问 的 相似 性 〈 分 数 为 0 ~ 1 )， 用 于 动态 比较 单词 : 
# 0 一 1 的 相似 性 分 数 
# “女人 ”和 “男人 ”的 相似 度 ， 比 较 相 似 


model.wv.similarity('woman', 'man') 
0.766401223 


# “ 树 ” 和 “男人 ”的 相似 度 ， 不 大 相似 


model.wv.similarity('tree', 'man') 
0 22037459 


可 以 看 到 ,“ 男 人 ”和 “女人 ”的 相似 度 比 “男人 ”和 “ 树 ” 的 相似 度 要 高 。 我 们 可 以 用 这 
个 方法 实现 很 多 之 前 不 可 能 完成 的 任务 。 


7.5.5 词 散 入 的 应 用 : 信息 检索 


词 怠 入 有 数不胜数 的 应 用 ,信息 检索 就 是 其 中 之 一 。 当 我 们 输入 关键 词 时 ,搜索 引擎 可 以 回 
忆 并 精确 地 返回 和 关键 词 匹配 的 文章 或 新 闻 。 例 如 ， 我 们 搜索 关于 狗 〈dog ) 的 文章 时 ， 会 得 到 
包含 这 个 词 的 文章。 如 果 搜 索 犬 ( canine ) 这 个 词 呢 ? 因为 犬 就 是 狗 ， 我 们 还 是 希望 看 见 关 于 狗 
的 文章 。 下 面 实现 一 个 简单 的 信息 检索 系统 ， 展 示 一 下 词 嵌 入 的 力量 。 


我 们 创建 一 个 函数 ， 从 gensim 包 中 获取 单词 的 词 腻 入 ， 查 找 失 败 则 返回 None: 


# 查找 词 诬 入 ,没有 就 返回 None 
def get_embedding (string): 
tr 
return model .wv[string] 
except: 
return None 





















































然后 创建 3 个 文章 标题 ， 其 中 一 个 关于 狗 ， 一 个 关于 猫 ， 一 个 没有 主题 、 属 于 干扰 项 : 
# 原创 标题 


sentences = [ 
"this is about a dog", 
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"this is about a cat", 
"this is about nothing" 


] 

















目标 是 输入 接近 aog 或 cat 的 参考 词 ， 获 取 相关 标题 。 我 们 先 对 每 个 句子 创建 一 个 3 x 300 
的 向 量化 和 矩阵。 有 具体 做 法 是 对 句子 中 的 每 个 单词 取 均 值 ， 作 为 句子 的 均值 向 量 。 在 向 量化 后 , 我 


























们 就 可 以 对 句子 和 参考 词 求 点 积 ， 


import numpy as np 
from functools import reduce 





# 3 x 300 的 零 矩 阵 
vectorized_sentences = 


# 对 于 每 个 身子 


for i, sentence in enumerate(sentences) : 
# 分 词 
words = sentence.split(' ') 


# 进行 词 吝 入 
embedded_words = 
embedded_words = 
# 对 标题 进行 向 量化 ， 取 均值 
vectorized_sentence = 

len(list (embedded_ words)) 
# 改 成 向 量 


vectorized_sentences[i:] = 


[get_embedding (w) for 





vectorized_sentences.shape 


(3, 300) 




















进行 比较 。 最 接近 的 向 量 ， 点 积 最 大 : 


np.zeros((len(sentences),300)) 


w in words] 


filter(lambda x:x is not None, embedded words) 


reduce(lambda x,y:x+y, embedded words)/ 


vectorized_sentence 


需要 注意 的 是 ， 我 们 在 创建 文档 的 向 量化 表示 时 ， 并 不 考虑 单词 的 顺序 。 为 什么 这 样 比 





CountVectorizer 和 TfidfVvectorizer 好 呢 ? gg 


ensim 方法 希望 把 文本 投影 到 单词 上 下 文学 








习 到 的 潜在 结构 上 ， 而 scikit-learn 的 向 量化 器 只 能 但 
有 7 个 单词 : 


this, is, about, a, dog, cat, nothing 


因此 countVectorizer 和 TfidfVvectorize 
dog 最 接近 的 句子 : 
# 和 “ 狗 ” 最 接近 的 句子 


reference word = 'dog' 


# 词 误 入 和 向 量化 矩阵 的 点 积 
best_sentence_idx = 


用 我 们 已 掌握 的 词汇 。 在 这 3 个 句子 中 ,只 





r 的 最 大 投影 形状 是 (3, 7)。 我 们 试 着 寻找 与 


np.dot (vectorized_ sentences, 


get_embedding (reference word)) .argsort () [-1] 


# 最 相关 的 身子 


sentences[best_sentence_idx] 


'this is about a dog' 
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很 简单 。 给 定 sog， 我 们 可 以 取得 关于 它 的 句子 。cat 一 词 也 是 一 样 的 : 


reference_ word = 'cat' 
best_sentence_idx = np.dot (vectorized_ sentences, 
get_embedding (reference word)) .argsort()[-1] 


sentences[best_sentence_idx] 


'this is about a cat' 


再 试 试 高 难度 的 。 输 入 canine 和 tiger， 看 看 能 不 能 分 别 得 到 关于 dog 和 cat 的 句子 : 

















reference word = 'canine' 
best_sentence_idx = np.dot (vectorized_ sentences, 
get_embedding (reference word)) .argsort () [-1] 


print sentences[best_sentence_ idx] 


‘this is about a dog' 


reference word = 'tiger' 
best_sentence_idx = np.dot (vectorizeqd_ sentences, 
get_embedding (reference word)) .argsort () [-1] 


print sentences[best_sentence_ idx] 


'this is about a cat' 


下 面 的 例子 更 有 意思 。 下 面 是 《数据 科学 原理 》 一 书 的 章 名 列表 : 


sentences = """ 

How to Soundq Like a Data Scientist 
Types of Data 

The Five Steps of Data Science 
Basic Mathematics 

A Gentle Introduction to Probability 
Advanced Probability 

Basic Statistics 

Advanced Statistics 

Communicating Data 

Machine Learning Essentials 

Beyongd the Essentials 

Case Studies 

SDLIit(t "Nr 


有 12 章 可 以 检索 。 我 们 的 目标 是 给 定 主题 ， 用 参考 词 提供 3 个 最 相关 的 标题 。 例 如 ， 给 定 
“数学 ”， 我 们 有 可 能 建议 阅读 关于 基础 数学 、 统 计 学 和 概率 的 章节 。 
我 们 看 看 在 给 定 输入 下 ， 最 好 阅读 哪些 章节 。 和 前 面 一 样 ， 计 算 一 个 向 量化 文档 矩阵 : 


# 3 x 300 的 堆 矩 阵 
Vectorizedq_sentences = np.zeros((len(sentences),300)) 


# 对 于 每 个 身子 
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for i, sentence in enumerate(sentences) : 


# 分 词 

words = sentence.split(' ') 

# 进行 词 吝 入 

embedded words = [get_embedding(w) for w in words] 


embedded words = filter(lambda x:x is not None, embedded words) 

# 对 标题 进行 向 量化 ， 取 均值 

vectorized_sentence = reduce(lambda x,y:x+y, embedded words)/ 
len(list (embedded_ words)) 

# 改 成 向 量 


vectorized_sentences[i:] = vectorized_ sentence 





vectorized_sentences.shape 
(12. -300) 


然后 寻找 和 math 最 相关 的 章节 : 


# 和 “数学 ”最 相关 的 章节 


reference word = 'math' 
best_sentence_ idx = np.dot (vectorized_ sentences, 
get_embedding (reference word)) .argsort()[-3:][::-1] 


[sentences[b] for b in best_sentence_idx] 

['Basic Mathematics', 'Basic Statistics', 'Advanced Probability '] 
然后 ， 假 设 我 们 要 做 关于 数据 的 演讲 ， 想 知道 哪些 章节 最 有 用 : 

# 关于 数据 的 演讲 


reference word = 'talk' 
best_sentence_ idx = np.dot (vectorized_ sentences, 
get_embedding (reference word)) .argsort()[-3:][::-1] 


[sentences[b] for b in best_sentence_idx] 


['Communicating Data ', 'How to Sound Like a Data Scientist', 'Case Studies '] 
三 、 2 

最 后 ， 查 找 关于 AI 的 章节 : 

# 关于 AI 

reference word = 'AI' 

best_sentence_ idx = np.dot (vectorized_ sentences, 
get_embedding (reference word)) .argsort()[-3:][::-1] 


[sentences[b] for b in best_sentence_idx] 





['Advanced Probability ', 'Advanced Statistics', 'Machine Learning Essentials'] 


可 以 看 到 ， 词 伐 入 可 以 从 文本 中 检索 上 下 文 相 关 的 信息 。 
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7.6 “小结 


本 章 重 点 介绍 了 两 种 特征 学 习 工 具 : RBM 和 词 能 入 。 


这 两 种 工具 都 使 用 深度 学 习 架 构 从 原始 数据 中 学 习 新 的 特征 集 。 两 种 技术 都 用 较 浅 的 网 络 来 
优化 训练 时 间 ， 并 且 用 拟 合 阶 段 学 到 的 权重 和 偏差 来 提取 数据 的 潜在 结构 。 








下 一 章 包含 两 个 特 生 








FE 工程 的 例子 , 全 部 基于 从 互联 网 上 收集 的 真实 数据 , 并 且 会 展示 如 何 使 











用 从 本 书 学 到 的 工具 来 色 











| 建 最 佳 的 机 带 学 习 流水 线 。 


第 8 章 


案例 分 析 




















本 书 已 经 介绍 了 几 种 不 同 的 特征 学 习 算法 ,也 利用 了 很 多 不 同 的 数据 集 。 本 章 会 通过 一 些 案 
例 ， 帮 助 你 加 深 对 书 中 各 个 主题 的 理解 。 我 们 会 从 头 到 尾 完成 对 两 个 案例 的 研究 ， 以 进一步 了 解 
特征 工程 如 何在 现实 应 用 中 帮助 我 们 创建 机 器 学 习 流水 线 。 对 于 每 个 案例 , 我 们 都 会 从 如 下 几 方 
面 介绍 : 


口 要 实现 的 应 用 ; 

口 使 用 的 数据 ; 

口 探索 性 数据 分 析 ; 

口 机 器 学 习 流 水 线 和 指标 。 
要 研究 的 案例 主题 如 下 : 

口 面部 识别 ; 

口 预测 酒店 评论 数据 。 
我 们 开始 吧 ! 

















8.1 案例 1: 面部 识别 


第 一 个 案例 研究 的 是 scikit-leam 中 Wild 数据 集 里 的 面部 数据 集 。 这 个 数据 集 叫 作 JAFFE, 包括 
一 些 面部 照片 以 及 适当 的 表情 标签 。 我 们 的 任务 是 面部 识别 ， 即 进行 有 监督 的 机 器 学 习 ， 预 测 图 
像 中 人 物 的 表情 。 














8.1.1 面部 识别 的 应 用 

图 像 处 理 和 面部 识别 的 用 途 很 广 。 在 视频 和 图 像 中 快速 识别 人 群 中 的 人 脸 对 物理 安全 和 社会 
媒体 巨头 公司 而 言 至 关 重 要 。Google 等 具有 图 像 搜索 功能 的 搜索 引擎 可 以 用 图 像 识别 算法 来 匹配 
图 像 并 量化 其 相似 度 ， 以 便 我 们 上 传 菜 人 的 照片 后 ， 可 以 获取 其 所 有 其 他 照片 。 
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8.1.2 数据 


我 们 先 加 载 数据 集 ， 导 入 几 个 用 于 绘制 数据 的 包 。 在 Jupyter Notebook 的 最 上 方 放置 所 有 的 
导入 语句 是 个 好 习惯 。 当 然 ， 有 可 能 需要 在 工作 中 途 导 和 人 新 的 包 , 但 是 为 了 保证 整洁 ,最 好 把 所 
有 的 导入 语句 放 在 最 上 端 。 

下 面 的 代码 包括 本 例 需 要 的 导入 语句 。 导入 的 每 个 包 都 会 用 到 , 你 会 逐渐 明白 它们 的 具体 用 途 : 

# 特征 提取 模块 


from sklearn.decomposition import PCA 
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis 











# 特征 缩放 模块 


from sklearn.preprocessing import StandardScaler 


# 标准 Python 模块 

from time import time 

import numpy as np 

import matplotlib.pyplot as plt 


smatplotlib inline 


# 保证 图 片 直接 在 笔记 本 中 出 现 





# scikit-learn 的 特征 选择 模块 
from sklearn.model_ selection import train test_split, GridSearchCV, cross_val_score 


# 指标 
from sklearn.metrics import classification report, confusion matrix, accuracy_score 


# 机 器 学 习 模 块 
from sklearn.linear model import LogisticRegression 
from sklearn.pipeline import Pipeline 


可 以 开始 了 ! 步骤 如 下 所 示 。 
(1) 首先 加 载 数据 集 。 


lgit clone https://github.com/ashishpatel26/Facial-Expression-Recognization-using- 
JAFFE.git 





Uy 


data_path = './jaffe/' 
data_dir_ list = os.listdir(data_ path) 


img_rows=256 
TM EOLESE256 
num_ channel=1 


num_epoch=10 


img_data_list=[] 


for dataset in data dir list: 
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img_list=os.listdir(data path+'/'+ dataset) 

print ('Loaded the images of dataset-'+'{}\n'.format (dataset)) 

for img in img list: 
input_img=cv2.imread(data path + '/'+ dataset + '/'+ img ) 
input_img=cv2.cvtColor (input_img, cv2.COLOR_ BGR2GRAY) 
input_img_resize=cv2.resize(input_img, (128,128)) 
img_data_list.append(input_img_ resize) 


img_data = np.array (img_data_ list) 
img_data = img_data.astype('float32') 
img_data = img_data/255 
img_data.shape 


(2) 我 们 可 以 检查 图 像 数 组 ， 输 出 图 像 大 小 。 代 码 如 下 : 


n_samples, h, w = img_data.shape 
n_samples, h, w 





(ZL "L287 L128) 

一 共有 213 个 样本 ( 图像 )， 高 度 和 宽度 都 是 128 像素 。 
(3) 接着 设置 流水 线 的 x 和 y 变量 : 

# 直接 使 用 不 管 相 对 像素 位 置 

xX = img_data 

y = labels 

n_features = X.shapel[1] 


n_features 
16384 
n_features 的 数量 是 16 384， 因 为 : 
128 x 128 = 16 384 
下 面 的 代码 可 以 输出 数据 的 形状 : 
xX.shape 


(213, 16384) 


.3 数据 探索 


数据 有 213 行 和 16 384 列 。 我 们 可 以 绘制 一 幅 图 像 ， 进 行 探 索性 数据 分 析 : 


# 绘制 其 中 一 张 脸 
plt.imshow(X[0] .reshape((h, w)), cmap=plt.cm.gray) 
getLabel (y[0]) 
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给 出 的 标签 是 


"ANGRY 


该 图 像 如 下 所 示 。 




















我 们 在 缩放 后 重新 绘制 一 次 图 像 : 


plt.imshow(StandardScaler() .fit_ transform(X) [0] .reshape((h, w)), cmap=plt.cm.gray) 
getLabel(y[0]) 


输出 是 : 


"ANGRY 


得 到 的 图 像 如 下 所 示 。 
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进行 


可 以 看 见 ， 图 像 略 有 不 同 ， 脸 部 周围 的 像素 变 暗 了 。 现 在 设置 预测 的 标签 ; 
# 预测 表情 


target_names = labels_text 
n_samples = X.shapel[l0] 














n_classes = len(names) 

print ("Total dataset size:") 
print("n_samples: %d" %$ n_ samples) 
print ("n_features: %d" % n_ features) 
print("n_ classes: %d" gs n_classes) 
AN、 

输出 是 : 





Total dataset size: 
n_samples: 213 
n_features: 16384 
n_classes: 7 


.4 应 用 面部 识别 


现在 可 以 开始 构建 机 器 学 习 流 水 线 来 创建 面部 识别 模型 了 。 


(1) 首先 创建 训练 集 和 测试 集 ， 对 数据 进行 分 割 ， 代 码 如 下 : 
# 把 数据 分 成 训练 集 和 测试 集 


XxX_train, XxX_ test, y_train, y_test = train test_split (Xx, y, test_size=0.25, 
random_state=1) 


(2) 现在 可 以 在 数据 集 上 进行 主 成 分 分 析 (PCA ) 了 。 先 将 PCA 实例 化 ， 在 进入 流水 线 之 前 
数据 扩充 。 方 法 如 下 : 


# PCA 实例 化 
pca = PCA(n components=50, whiten=True) 


# 创建 流水 线 ， 扩 充 数据 ， 然 后 应 用 PCA 


preprocessing = Pipeline([('scale', StandardScaler()), ('pca', pca)]) 
(3) 现在 拟 合流 水 线 : 
print ("Extracting the top %d eigenfaces from %d faces" % (50, X_ train.shape{[0])) 


# 在 训练 集 上 拟 合 流水 线 


preprocessing.fit (x _ train) 


# 从 流水 线 上 取 PCA 
extracted_ pca = preprocessing.steps[1][1] 


(4) print 语句 的 输出 是 : 


Extracting the top 50 eigenfaces from 159 faces 
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(5) 看 一 下 人 碎 石 图 : 
# 碎 石 图 





plt.plot (np.cumsum(extracted pca.explained variance ratio_ )) 


得 到 的 图 像 如 下 图 所 示 。 
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可 以 看 出 ，30 个 主 成 分 就 可 以 表示 90% 以 上 的 方差 ， 和 原始 的 特征 数量 相 比 很 可 观 。 
(6) 可 以 创建 函数 ， 绘 制 PCA 的 主 成 分 ， 代 码 如 下 : 


Comp = extracted_ pca.components_ 
image_shape = (h, w) 
def plot_gallery (title, images, n_ col, n_ row): 
plt.figure(figsize=(2, * 1 col; 2.26 * nrow)) 
plt.suptitle(title, size=16) 
for i, comp in enumerate(images): 
plt.subplot (n_row, n_col, i + 1) 
vmax = max(comp.max(), -comp.min()) 
plt.imshow (comp.reshape (image_shape), cmap=plt.cm.gray, 
vmin=-vmax, vmax=vmax) 
从 并 DB.()Y 
Dltyyticks(.(}) 
blt subplotscadjust (0 02 :005 0995 /059093 O04; .0.7) 
plt.show!() 


(7) 现在 可 以 调用 plot_gallery 国 数 ， 方 法 如 下 : 


plot_gallery('PCA componenets', comp[:16], 4,4) 


输出 如 下 图 所 示 。 
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PCA componenets 














可 以 看 见 每 行 每 列 的 PCA 主 成 分 了 ! 这 些 特征 脸 ( eigenface ) 是 PCA 模块 发 现 的 人 脸 特 征 。 
可 以 将 其 和 第 7 章 的 结果 进行 对 比 ， 当 时 我 们 用 PCA 提取 了 特征 数字 。 每 个 主 成 分 都 包括 了 可 
以 区 分 不 同人 脸 的 重要 信息 ， 例 如 : 


口 第 四 行 第 一 列 的 特征 脸 好 像 突 出 了 腮 部 表情 ; 
口 第 二 行 第 三 列 的 特征 脸 好 像 显示 了 嘴 部 的 变化 。 


当然 ， 上 面 是 我 们 的 解释 ,不 同 的 面部 数据 集会 输出 不 同 的 特征 脸 。 接 下 来 创建 的 函数 可 以 
更 清晰 地 显示 混 消 和 矩阵， 包括 热 标 签 和 归 一 化 选项 : 
import itertools 


def plot_confusion matrix(cm, classes, 
normalize=False, 





title='Confusion matrix', 
cmap=plt.cm.Blues): 








A Sy 六 
198 第 8 章 案例 分 析 
plt.imshow(cm, interpolation='nearest', cma 


plt.title(title) 
plt.colorbar () 
tick_marks np.arange (len(classes)) 


p=cmap) 


plt.xticks (tick marks, classes, rotation=45) 
plt.yticks (tick marks, classes) 
thresh = cm.max() / 2. 
for i, j in itertools.product (range (cm.shape[0]), range(cm.shape[1])): 
和 oN N=» 4 9 fn es 1 oie i 
horizontalalignment="center", 
color="white" if cm[i, j] > thresh else "black") 


plt.ylabel('True label') 
plt.xlabel('Predicted label') 











现在 不 使 用 PCA 也 可 以 看 见 差异 。 我 们 查看 一 下 模 ] 
# 不 用 PCA， 看 看 差异 


型 的 准确 率 : 


t0 = 七 ime() 

logreg = LogisticRegression() 

param grid = {'C': [le-2, le-1, le0, lel, 1e2]} 

clf = GridSearchCV (logreg, param grid) 

elf"e GLE. fit (XX trains yy tearn) 

best_clf = clf.best_estimator_ 

# 用 测试 集 进行 预测 

y_pred = best_clf.predict (x_test) 

print (accuracy_scorel(ly_pred, y_test), "Accuracy Score for best estimator") 





print (plot_confusion matrix(confusion matrix(y_test, 


target_names)) 
es 


labels=range(n_classes)), 
print (round( (time() - t0), 


输出 如 下 : 


0.7592592592592593 Accuracy score for best esti 
309.5 seconds to grid search and predict the te 


在 只 使 用 原始 像素 的 情况 下 , 我 们 的 线 怕 
后 会 不 会 有 所 不 同 ， 把 主 成 分 数量 设置 成 200: 


# 用 PCA 
七 0 time() 








face_ pipeline = Pipeline(steps=[('PCA', PCA(n_c 


logreg)]) 


pipe_param grid = {'logistic C': [le-2, le-1, 
clf = GridSearchCV (face pipeline, 
[9 了 并 CLE £1 {Xtal YY. tral) 


best_clf clf.best_estimator_ 


FE 模型 可 以 达 


y_pred, 


"seconds to grid search and predict the test set") 


mator 
St Bet 


到 75.9% 的 准确 率 。 下面 看 看 应 用 PCA 


omponents=200)), ('logistic', 


le0, lel, 1e2]} 


pipe_param grid) 
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# 用 测试 集 进行 预测 
y_pred = best_clf.predict (Xx_test) 
print (accuracy_scorel(y_pred, y_test), "Accuracy Score for best estimator") 
print (classification reportl(y_test, y_pred, target names=target_names)) 
print (plot_confusion matrix(confusion matrix(y_test, y_pred, 
labels=range(n_classes)), target_names)) 
print (round( (time() - t0), 1), "seconds to grid search and predict the test set") 
应 用 PCA 后 的 输出 如 下 : 
0.6666666666666666 Accuracy score for best estimator 
4.9 seconds to grid search and predict the test set 
有 意思 ! 可 以 看 到 ， 准 确 率 下 降 到 了 66.7%。 
现在 做 一 个 网 格 搜索 ,寻找 最 佳 模 型 和 准确 率 。 首 先 创建 一 个 执行 网 格 搜索 的 函数 ， 它 会 输 








出 准确 率 、 参 数 、 平 均 拟 合 时 间 和 平均 分 类 时 间 。 函 数 的 创建 方法 如 下 : 


def get_best_ model_ and accuracy (model, params, X, y): 





grid = GridSearchCV (model, # 网 格 搜索 的 模型 
params, # 搜索 的 参数 
error_score=0.)  # 如 果 出 错 ， 正 确 率 是 0 
grid. fit (X,Yy) # 拟 合 模型 和 参数 


# 经 典 的 性 能 参数 
print ("Best Accuracy: {}".format (grid.best_score_) ) 
# 得 到 最 佳 准确 率 的 最 佳 参数 
print ("Best Parameters: {}".format (grid.best_params_) ) 
# 拟 合 的 平均 时 间 ( 秒 ) 
print ("Average Time to Fit (s): 
{}".format (round (grid.cv_results_['mean fit time'] .mean(), 3))) 
# 预测 的 平均 时 间 ( 秒 ) 
# 从 该 指标 可 以 看 出 模型 在 真实 世界 的 性 能 
print ("Average Time to Score (s): 
{}".format (round (grid.cv_results_['mean score time'] .mean(), 3))) 


现在 可 以 创建 一 个 更 大 的 网 格 搜索 流水 线 ， 包 含 更 多 的 组 件 : 


口 缩放 模块 ; 

口 PCA 模块 ， 提 取 捕 获 方差 的 最 佳 特征 ; 

口 线性 判别 分 析 ( LDA ) 模块 ， 创 建 区 分 人 脸 效果 最 好 的 特征 ; 

口 线性 分 类 需 ， 利 用 上 述 3 个 特征 工程 模块 的 结果 ， 尝 试 对 人 脸 进 行 区 分 。 


创建 大 型 流水 线 的 代码 如 下 : 


# 网 格 搜索 的 大 型 流水 线 

face params = {'logistic C':[1le-2, le-1, le0, lel, 1e2], 
'preprocessing pca _n components':[100, 150, 200, 250, 300], 
'preprocessing pca whiten':[True, Falsel], 
'preprocessing lda nn components':range(1, 7) 
# [1, 2, 3, 4, 5, 6] recall the max allowed is n_ classes-1 





























pca = PCA() 
lda = LinearDiscriminantAnalysis() 
preprocessing = Pipeline([('scale', StandardScaler()), ('pca', pca), ('lda', 1da)]) 


logreg = LogisticRegression() 
face pipeline = Pipeline(steps=[('preprocessing', preprocessing), ('logistic', 
JIogreg) ] ) 


get_best_ model_ angd_accuracy (face_pipeline，face_params，X，Y) 


结果 如 下 : 


Best Accuracy: 0.8276995305164319 

Best Parameters: {'logistic C': 10.0, 'preprocessing 1da_n_ components': 6, 
'preprocessing pca nn components': 100, 'preprocessing pca whiten': True} 
Average Time to Fit (s): 0.213 

Average Time to Score (s): 0.007 


可 以 看 见 ， 准 确 率 大 幅度 提高 ， 预 测 的 速度 极 快 ! 





8.2 案例 2: 预测 酒店 评论 数据 的 主题 


第 二 个 案例 会 研究 酒店 评论 数据 , 尝试 按 主题 将 评论 聚 类 。 我 们 使 用 的 方法 是 潜在 语义 分 析 
(LSA, latent semantic analysis ), 就 是 在 稀 跑 的 文本 文档 ( 词 和 矩阵) 上 应 用 PCA。 为 了 进行 分 类 
和 眼 类 ， 我 们 需要 发 据 文 本 的 潜在 结构 。 











8.2.1 文本 聚 类 的 应 用 

文本 聚 类 的 含义 是 ,为 了 理解 文档 的 内 容 , 将 文本 划分 到 不 同 的 主题 。 想 象 一 下 , 一 家 大 型 
连锁 酒店 每 周 都 会 收 到 来 自 世 界 各 地 的 数 千 条 评论 。 酒店 的 员工 会 希望 知道 人 们 的 评论 , 以 便 明 
确 工 作 的 优秀 和 不 足 之 处 。 

当然 , 这 里 的 限制 因素 是 人 类 阅读 文本 的 速度 和 准确 度 。 我 们 可 以 训练 机 需 识 别 评论 的 类 型 ， 
然后 对 新 的 评论 进行 预测 ， 并 将 这 个 过 程 自动 化 。 





























8.2.2 酒店 评论 数据 

我 们 要 使 用 的 数据 集 来 自 Kaggle， 包 括 全 球 1000 家 酒店 的 35 000 条 评论 。 我 们 的 任务 是 分 
离 出 评论 文本 并 识别 评论 的 主题 ( 人们 谈论 的 内 容 )， 然 后 创建 一 个 机 器 学 习 模 型 ， 以 预测 /识别 
传人 评论 的 主题 。 
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导入 语句 如 下 : 
行 归 一 化 


from sklearn.preprocessing import Normalizer 


scikit-learn 的 KMeans 聚 类 模块 
from sklearn.cluster import KMeans 


数据 修改 工具 


import pandas as pd 


NLTK 的 分 词 工具 
from nltk.tokenize import sent_tokenize 








特征 提取 模块 (之 后 会 涉及 TruncatedSVD) 
from sklearn.decomposition import PCA 
from sklearn.decomposition import TruncatedqSVD 


然后 导入 数据 : 


hotel_reviews = pd.read csv('../data/7282_1.csv') 


导入 数据 后 ， 可 以 观察 一 下 原始 数据 的 样式 。 





8.2.3 数据 探索 
我 们 先 看 一 下 数据 的 形状 : 
hotel_reviews.shape 


(35912. .19 


数据 有 35 912 行 和 19 列 。 我 们 只 关注 有 文本 数据 的 列 ， 但 是 先 看 一 下 前 几 行 是 什么 样 的 ， 
以 便 更 好 地 理解 数据 : 


hotel_reviews.head () 


输出 的 表格 如 下 所 示 。 


























人 三 了 安 > 本 
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hm reviews. |reviews. 2 reviews. reviews. 
cate- ; longi- postal- reviews. reviews. |reviews. |reviews. | reviews. reviews. 
address 下 city |country| latitude name province date- doReco- |: S User- User- 
gories tude Code date id rating |text title username 
Added mmend City Province 
Pleasant 
Riviera Hotel 贡生 Good loca- 
San Sr 2013-09-22 |2016-10-24 tion away Russ 本 
Nicol Hotels |Mableton| US |45.421611|12.376187|Russo |30126 GA T00:00:00Z | T00:00:25Z NaN NaN 4.0 along fo th NaN (kent) NaN 
Palace the sea 
ll/a crouds 
front to 
th... 
Really 
Riviera lovely Great hotel 
San ole 2015-04-03 |2016-10-24 hotel. | with A 
Nicol Hotels |Mableton| US |45.421611|12.376187|Russo |30126 GA T00:00:00Z | T00:00:25Z NaN NaN 5.0 Stayed en NaN else NaN 
Palace on the 
11/a bath! 
very top 
1 
Ett 
Riviera mycket 
San oie 2014-05-13 |2016-10-24 Die Lugnt 
Nicol Hotels |Mableton| US |45.421611|12.376187|Russo |30126 GA T00:00:00Z | T00:00:25Z NaN NaN 5.0 hotell. WOOge NaN Maud NaN 
Palace Det som & 
11/a 
drog ner 
betyge... 
We 
Stayed 
Riviera Hotel here for |Good 
San 2013-10-27 |2016-10-24 four location : 
Nicol Hotels |Mableton| US |45.421611|12.376187|Russo |30126 GA T00:00:00Z | T00:00:25Z NaN NaN 5.0 nights pr ig NaN Julie NaN 
Palace 和 ; 
11a in Lido. 
October. 
The... 
We 
stayed 
Riviera 训 here for |@ 
Sun Hotels | Mableton| US |45.421611|12.376187 Re 30126 | GA |2015-03-05 |2016-10.24| NaN | NaN 50 |fur do NaN | sungchul | NaN 
Nicol 9, l i ei " T00:00:00Z|T00:00:25Z 0 lnighs |86666668 een 
Palace > 
11/a in Go000 
October. 
The... 





我 们 只 看 来 自 美 


hotel_reviews.plot.scatter (x='longitude', 








评论 的 经 纬度 











渝 出 如 下 图 所 示 。 


为 了 便于 处 理 数据 集 ， 我 们 月 
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日 Pandas 取 评 论 的 子 集 ， 














只 包括 美国 的 评论 : 





的 评论 ， 排 除 其 他 的 语言 。 首 先 将 数据 可 视 化 ， 方 法 如 下 : 
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# 只 看 美国 的 评论 

hotel_reviews = hotel reviews[((hotel_ reviews['latitude']<=50.0) & 

(hotel_ reviews['latitude']>=24.0)) & ((hotel_ reviews['longitude']<=-65.0) & 
[ 


(hotel_reviews['longitude']>=-122.0))] 
# 再 次 绘制 经 纬度 
hotel_reviews.plot.scatter (x='longitude', y='latitude') 


# 只 看 来 自 美国 的 评论 
输出 如 下 图 所 示 。 








-120 -110 —100 -90 -80 -70 
longitude 











看 起 来 像 美国 地 图 ! 我 们 看 一 下 过 滤 后 的 数据 集 形状 : 


hotel_reviews.shape 


数据 有 30 692 行 和 19 列 。 我 们 在 写 酒店 评论 时 ， 一 般 会 涉及 不 同 的 方面 。 因 此 ， 我 们 按 句 
子 分 配 主题 ， 而 不 是 按 整 个 评论 分 类 。 


为 了 进行 处 理 ， 我 们 取 数 据 的 评论 列 ， 代 码 如 下 : 


texts = hotel_ reviews['reviews.text'] 





8.2.4 ” 聚 类 模型 


我 们 可 以 将 文本 切 分 成 句子， 扩展 数据 集 。 我 们 从 NLTK ( 自然 语言 工具 包 ) 中 导入 
sent_tokenize 因数 。 这 个 函数 接收 一 个 字符 串 ， 和 输出 由 标点 分 割 的 有 序列 表 。 例 如 : 


sent_tokenize("hello! I am Sinan. How are you??? I am fine") 








['hello!', 'I am Sinan.', 'How are you???', 'I am fine'] 


我 们 用 Python 的 reduce 逻辑 , 在 整个 语料库 上 应 用 这 个 函数 。 大 体 上 说 , sent_tokenize 
函数 会 在 每 个 评论 上 应 用 一 次 ， 创 建 一 个 叫 sentences 的 列表 ， 包 含 所 有 的 句子 : 8 
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from functools import reduce 
sentences = reduce(lambda x, y:x+y, texts.apply (lambda x: sent_tokenize(str (x)))) 


可 以 看 一 下 句子 总 数 : 
# 身子 总 数 


len(sentences) 





118151 


一 共有 118 151 个 句子 。 我 们 用 Tfidfvectorizer 创建 一 个 文档 - 词 矩 阵 : 


from sklearn.feature extraction.text import TfidfVectorizer 








tfidf = TfidfVectorizer(ngram range=(1, 2), stop_words='english') 
tfidf_transformed = tfidf.fit_ transform(sentences ) 


tfidf_transformed 


输出 是 : 


<118151x280901 sparse matrix of type '<class 'numpy.float64'>' 
with 1180273 stored elements in Compressed Sparse Row format> 


然后 用 PCA 拟 合 : 
# 尝试 PCA 拟 合 
PCA(n_components=1000) .fit (tfidf_ transformed) 


运行 时 报错 了 : 


TypeError: PCA does not support sparse input. See TruncatedSsVD for a possible 
alternative. 


错误 的 意思 是 , PCA 不 支持 稀 跑 输入, 应 该 使 用 TruncatedSVD。 奇异 值 分 解 (SVD, singular 
value decomposition) 是 一 个 矩阵 技巧 ， 当 数据 集中 时 可 以 计算 相同 的 PCA 主 成 分 ， 允 许 我 们 
使 用 稀 玻 和 矩阵。 我 们 接受 这 个 建议 ， 使 用 TruncateaqSsVD 模块 。 

















8.2.5 ”SVD 与 PCA 主 成 分 


在 处 理 酒店 数据 之 前 ,我 们 先 用 “高 尾 花 数据 集 ” 进 行 试验 , 看 看 SVD 和 PCA 的 主 成 分 是 
否 相 同 。 


(1) 先导 入 高 尾 花 数据 ， 创 造 一 个 中 心 化 版 本 、 一 个 缩放 版 本 : 


from sklearn.preprocessing import StandardScaler 


























# 从 scikit-learn 导入 匣 尾 花 数据 集 
from sklearn.datasets import load_ iris 
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# 加 载 苗 尾 花 数 据 集 


iris = load_iris() 


# 分 离 特征 和 响应 变量 


过 二 这， 1S YLETS data; TEliS target 


X_centered = StandardScaler (with std=False) .fit_ transform(iris Xx) 
XxX_scaled = StandardScaler() .fit_ transform(iris_ xXx) 


(2) 实例 化 一 个 SVD 对 象 和 一 个 PCA 对 象 : 
# 看 看 结果 是 否 一 样 


svd = TruncatedSsVvD(n_components=2) 
pca = PCA(n_ components=2) 


(3) 对 原始 、 中 心 化 和 缩放 的 芒 尾 花 数据 分 别 应 用 SVD 和 PCA， 进 行 比较 : 
# 对 于 原始 数据 集 ，PCA 和 TruncatedSVD 是 否 一 样 
# 看 相 减 结果 是 否 接近 0 


print ((pca.fit(iris x) .components_ - svd.fit(iris_ XxX) .components_) .mean()) 


0.1301831230943786 # 不 接近 0 
# 矩阵 不 一 样 


# 对 于 中 心 化 数据 集 ，PCA 和 TruncatedaSVD 是 否 一 样 
print((pca.fit (Xx_centered) .components_ - svd.fit (XxX _ centered) .components_) .mean()) 


7.632783294297951e-17 # 接近 0 
# 矩阵 一 样 


# 对 于 缩放 的 数据 集 ，PCA 和 TruncatedSVD 是 否 一 样 
print((pca.fit(X_scaled) .components_ - svdq.fit(X_scaled) .components_) .mean()) 


3.469446951953614e-17 # 接近 0 

# 纶 阵 一 样 

(4) SVD 模块 在 缩放 的 数据 上 返回 和 了 CA 一 样 的 主 成 分 , 但 是 在 原始 数据 上 不 一 样 。 我们 继 
续 处 理 酒 店 数据 : 


svd = TruncatedSsSVvD(n_components=1000) 
svd.fit (tfidf_ transformed) 




















TruncatedSvD(algorithm='randomized', n_ components=1000, n_iter=5, 
random_state=None, tol=0.0) 


(5) 像 讨论 PCA 时 一 样 画 碎 石 图 ， 查 看 SVD 主 成 分 解释 的 方差 比例 : 


import matplotlib.pyplot as plt 
import numpy as np 








# 碎 石 图 


plt.plot (np.cumsum(svd.explained variance ratio_ )) 
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图 像 如 下 所 示 。 
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可 以 看 见 ，1000 个 主 成 分 解释 了 差不多 30% 的 方差 。 下 面 设置 一 下 潜在 语义 分 析 流 水 线 。 


8.2.6 潜在 语义 分 析 


潜在 语义 分 析 (LSA ) 是 一 种 特征 提取 工具 ， 对 如 下 3 个 步骤 的 文本 提取 有 所 帮助 ， 本 书 已 
经 有 所 提 及 : 


口 tfidf 向 量化 ; 
口 PCA( 因为 文本 的 稀 聋 性， 我 们 用 SVD ); 
口 行 归 一 化 。 





我 们 创建 一 个 执行 LSA 的 scikit-learn 流水 线 : 


tfidf = TfidfVectorizer(ngram range=(1, 2), stop_words='english') 
svd = TruncatedSVvD(n_components=10) # will extract 10 "topics" 





normalizer = Normalizer() # will give each document a unit norm 

lsa = Pipeline(steps=[('tfidf', tfidf), ('svd', svd), ('normalizer', normalizer)]) 
然后 可 以 拟 合 并 转换 数据 ， 代 码 如 下 : 

lsa_sentences = lsa.fit transform(sentences) 


lsa_sentences.shape 


(85 .O03 


和 矩阵 有 118 151 行 和 10 列 。10 列 代 表 提取 的 10 个 PCA/SVD 主 成 分 。 我 们 现在 可 以 在 
lsa_sentences 上 应 用 KMeans 聚 类 ， 代码 如 下 : 
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cluster = KMeans (n_clusters=10) 


cluster .fit(1sa_sentences ) 


Mi 我 们 假设 你 对 聚 类 有 基本 的 了 解 。 关 于 聚 类 及 其 原理 ,请 参考 《数据 科学 原理 》 

















你 应 该 注意 到 了 , 我们 为 天 均值 和 了 PCA 都 选择 了 10 这 个 数 。 不 过 这 并 不 是 一 定 的 。 一 般 而 
言 ， 你 可 以 在 SVD 模块 中 提取 更 多 的 列 。 我 们 取 10 个 聚 类 的 意思 是 : 我 认为 人 们 谈论 的 内 容 有 
10 个 主题 ， 请 把 每 句 话 划分 到 其 中 一 个 主题 里 。 

输出 如 下 : 

KMeans (algorithm='auto', copy_x=True, init='k-means++', max_iter=300, 


n_clusters=10, n_init=10, n_ jobs=1, precompute_ distances='auto', 
random_state=None, tol=0.0001, verbose=0) 























我 们 对 原始 的 文档 - 词 矩 阵 (形状 为 (118151，280901) ) 进行 拟 合并 预测 ， 然 后 对 潜在 语 
义 分 析 和 矩阵 (形状 为 (118151，10) ) 做 同样 的 操作 ， 并 比较 结果 。 


(1) 首先 是 原始 数据 集 : 


S$%Stimeit 
原始 (118151，280901) 数据 集 的 聚 类 速度 


cluster.fit (tfidf_ transformed) 





























结果 是 : 





1 loop, best of 3: 4min 15s per loop 


(2) 我 们 也 对 天 均值 计时 : 


$$timeit 
也 对 K 均值 聚 类 的 预测 进行 计时 


cluster.predict (tfidf_ transformed) 














结果 是 : 





10 loops, best of 3: 120 ms per loop 

















(3) 然后 是 LSA: 
S$%Stimeit 


LSA(118151，10) 数 据 集 的 聚 类 速度 


cluster.fit(lsa_ sentences) 


结果 是 : 





1 loop, best of 3: 3.6 s per loop 
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(4) 可 以 看 见 ，LSA 比拟 合 原 始 的 tfidf 数据 集 快 80 倍 。 我 们 对 LSA 的 聚 类 预测 计时 : 
S$%timeit 


# 也 对 均值 聚 类 的 预测 进行 计时 


cluster.predict (lsa_sentences) 


结果 是 : 


10 loops, best of 3: 34 ms per loop 


可 以 看 出 ， 预 测 LSA 数据 集 比 原始 的 t 夫 df 数据 集 快 4 倍 。 
(5) 现在 将 文本 转换 为 聚 类 距离 空间 ， 其 中 每 行 代表 一 个 观察 值 ， 如 下 所 示 : 


cluster.transform(lsa_sentences) .Shape 

(LESTESL; 10) 

predicted cluster = cluster.predict (lsa_sentences) 
predicted cluster 





输出 是 : 
array (2 2% Zi dy ZY Zr Gl "AtyBeSLNt32) 
(6) 现在 我 们 可 以 获取 主题 的 分 布 了 ， 代 码 如 下 : 
# 主题 的 分 布 


pd.Series (predqictead_cluster).value_counts (normalize=True)# create DataFrame of texts 
and predicted topics 
texts_df = pd.DataFrame ({'text':sentences, 'topic':predicteqd cluster}) 


texts_df.head() 


print "Top terms per cluster:" 
original_space_centroids = svd.inverse transform(cluster.cluster_ centers_ ) 
order_centroids = original_space centroids.argsort()[:, ::-1] 
terms = lsa.steps[0] [1] .get_feature_ names() 
for i in range(10): 
print "Cluster %d:" % i 
print ', '.join([terms[ind] for ingd in order centroids[i, :5]]) 
print 


lsa.steps[0] [1] 
(7) 这 样 可 以 得 到 每 个 主题 最 引 人 关 注 的 短语 列表 ( 按 TfidfVectorizer 分 类 ): 
Top terms per cluster: 


Cluster 0: 
good, breakfast, breakfast good, room, great 





Cluster 1: 
hotel, recommend, good, recommend hotel, nice hotel 





Cluster 2: 
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clean, room clean, rooms, clean comfortable, comfortable 


Cluster 3: 
room, room clean, hotel, nice, good 


Cluster 4: 
great, location, breakfast, hotel, stay 


Cluster SS: 
stay, hotel, good, enjoyed stay, enjoyed 


Cluster 6: 
comfortable, bed, clean comfortable, bed comfortable, room 


Cluster 7: 
nice, room, hotel, staff, nice hotel 


Cluster 8: 
hotel, room, good, great, stay 





Cluster 9: 
staff, friendly, staff friendly, helpful, friendly helpful 


我 们 可 以 查看 每 个 聚 类 最 热门 的 词汇 ， 其 中 一 些 很 有 意义 。 例 如 ， 聚 类 1 好 像 是 关于 人 们 如 
何 向 家 人 和 朋友 推荐 酒店 ,上 容 类 9 是 关于 员工 如 何 热情 好 客 、 乐 于 助人 。 接 下 来 我 们 希望 预测 新 
评论 的 主题 。 

现在 可 以 预测 新 评论 属于 哪个 聚 类 了 ， 代 码 如 下 : 


# 主题 预测 
print (cluster.predict (lsa.transform(['I definitely recommend this hotel']))) 














print (cluster.predict (lsa.transform(['super friendly staff. Love it!']))) 


第 一 句 的 预测 输出 是 聚 类 1， 第 二 句 是 聚 类 9， 如 下 所 示 : 


[1] 
[9] 


很 好 ! 聚 类 1 对 应 于 : 


Cluster 1: 
hotel, recommend, good, recommend hotel, nice hotel 


聚 类 9 对 应 于 : 


Cluster 9: 
staff, friendly, staff friendly, helpful, friendly helpful 


聚 类 1 看 起 来 是 对 酒店 的 推荐 ， 聚 类 9 则 更 关注 员工 。 我 们 的 预测 相当 准确 ! 























本 章 ， 我 们 利用 书 中 的 很 多 特征 工程 方法 ， 研 究 了 来 自 两 个 截然 不 同 领域 的 案例 。 


和 希望 你 觉得 本 书 的 内 容 很 有 趣 ， 并 且 进 一 步 学 习 。 你 可 以 继续 探索 特征 工程 、 机 器 学 习 和 数 
据 科学 的 世界 。 希 望 本 书 是 你 进一步 学 习 的 催化 剂 。 


对 于 之 后 的 学 习 ， 我 们 强烈 推荐 你 阅读 知名 的 数据 科学 图 书 和 博客 ， 例 如 : 


口 锡 南 : 厄 效 代 米 尔 的 《数据 科学 原理 放 
口 机 器 学 习 和 AI 博客 ，KD-nuggets (https://www.kdnuggets.comy )。 
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